Gemini avanza no audio e facilitará a tradución de voz en tempo real
venres, 12 de decembro do 2025
Google anunciou unha actualización significativa dos seus modelos Gemini 2.5 Flash Native Audio, deseñados para axentes de voz en directo. A compañÃa destaca que esta versión mellora a capacidade de seguir instrucións complexas, activar funcións externas con maior precisión e manter conversas máis naturais e cohesionadas.
Aseguran que o modelo acada un 71,5 % en ComplexFuncBench Audio, un banco de probas que mide a execución de chamadas de funcións con múltiples pasos. Ademais, a taxa de cumprimento das instrucións dos desenvolvedores ascende ao 90 %, fronte ao 84 % anterior.
A actualización tamén introduce a tradución de voz en tempo real, dispoñible en fase beta na aplicación Google Translate. Esta función permite tanto a escoita continua como a conversa bidireccional, traducindo automaticamente entre máis de 70 idiomas e 2000 pares lingüÃsticos. O sistema conserva a entoación, o ritmo e a tonalidade da voz orixinal, e incorpora detección automática do idioma e filtrado de ruÃdo ambiental.
Clientes empresariais xa están a integrar estas capacidades en servizos de atención ao cliente e procesos financeiros.
A tecnoloxÃa comeza a despregarse en Google AI Studio, Vertex AI e Gemini Live, e chegará progresivamente a máis produtos, incluÃdo o Gemini API en 2026.
VÃdeo de presentación das novas funcionalidades de audio de Gemini
