Gemini avanza no audio e facilitará a tradución de voz en tempo real

venres, 12 de decembro do 2025 Redacción

Google anunciou unha actualización significativa dos seus modelos Gemini 2.5 Flash Native Audio, deseñados para axentes de voz en directo. A compañía destaca que esta versión mellora a capacidade de seguir instrucións complexas, activar funcións externas con maior precisión e manter conversas máis naturais e cohesionadas.
Aseguran que o modelo acada un 71,5 % en ComplexFuncBench Audio, un banco de probas que mide a execución de chamadas de funcións con múltiples pasos. Ademais, a taxa de cumprimento das instrucións dos desenvolvedores ascende ao 90 %, fronte ao 84 % anterior.
A actualización tamén introduce a tradución de voz en tempo real, dispoñible en fase beta na aplicación Google Translate. Esta función permite tanto a escoita continua como a conversa bidireccional, traducindo automaticamente entre máis de 70 idiomas e 2000 pares lingüísticos. O sistema conserva a entoación, o ritmo e a tonalidade da voz orixinal, e incorpora detección automática do idioma e filtrado de ruído ambiental.
Clientes empresariais xa están a integrar estas capacidades en servizos de atención ao cliente e procesos financeiros.
A tecnoloxía comeza a despregarse en Google AI Studio, Vertex AI e Gemini Live, e chegará progresivamente a máis produtos, incluído o Gemini API en 2026.

Vídeo de presentación das novas funcionalidades de audio de Gemini