Nova xeración de modelos de voz en tempo real de OpenAI
xoves, 7 de maio do 2026
OpenAI presentou hoxe a súa nova xeración de modelos de voz integrados na súa API. Esta actualización non se limita a mellorar a calidade do son, senón que introduce capacidades de razoamento de clase GPT-5 en interaccións de audio en tempo real, marcando un fito no camiño cara a asistentes dixitais máis humanos e eficaces.
A xoia da coroa desta nova oferta é o GPT-Realtime-2. Este modelo destaca pola súa capacidade para xestionar fluxos de traballo complexos mentres mantén unha conversa fluÃda. A diferenza das versións anteriores, este sistema pode razoar sobre a marcha, admitir interrupcións sen perder o fÃo e utilizar ferramentas de forma audible mentres o usuario segue falando. Para os desenvolvedores, isto tradúcese nunha maior flexibilidade, permitindo axustar o nivel de esforzo de razoamento entre cinco graos distintos para equilibrar a latencia e a precisión segundo a necesidade do servizo.
Xunto a este avance en razoamento, a compañÃa lanzou GPT-Realtime-Translate e GPT-Realtime-Whisper. O primeiro é un modelo de tradución en vivo capaz de procesar máis de 70 linguas de entrada e converter o discurso en trece linguas de saÃda sen apenas retardo. Pola súa banda, a nova versión de Whisper ofrece unha transcrición por streaming de baixa latencia, ideal para subtitulado en directo ou notas de reunións que se xeran ao mesmo ritmo que as palabras son pronunciadas.
A integración destas ferramentas xa está a dar os seus primeiros froitos en sectores como o inmobiliario ou o turÃstico. Empresas como Zillow ou Priceline están a utilizar estas capacidades para crear axentes de voz que poden axudar a un usuario a planificar unha viaxe ou buscar unha vivenda mediante comandos naturais e complexos. O incremento do contexto ata os 128K tokens permite que estas sesións sexan moito máis longas e coherentes, retendo información técnica e terminoloxÃa especializada que antes se perdÃa en conversas prolongadas.
En canto á seguridade e os custos, OpenAI implementou clasificadores activos para supervisar as sesións en tempo real e evitar usos que vulneren as súas polÃticas de contido. O modelo GPT-Realtime-2 ten un prezo de 32 dólares por cada millón de tokens de audio de entrada e 64 dólares por millón de saÃda. Pola súa parte, os servizos de tradución e transcrición prácense por minutos de uso, situándose en 0,034 e 0,017 dólares respectivamente. Con esta proposta, a tecnoloxÃa de voz deixa de ser un simple complemento para converterse nunha interface central onde a velocidade de resposta e a intelixencia profunda son, por fin, unha realidade.
VÃdeo de presentación dos novos modelos de OpenAI
