Nova xeración de modelos de voz en tempo real de OpenAI

xoves, 7 de maio do 2026 Redacción

OpenAI presentou hoxe a súa nova xeración de modelos de voz integrados na súa API. Esta actualización non se limita a mellorar a calidade do son, senón que introduce capacidades de razoamento de clase GPT-5 en interaccións de audio en tempo real, marcando un fito no camiño cara a asistentes dixitais máis humanos e eficaces.
A xoia da coroa desta nova oferta é o GPT-Realtime-2. Este modelo destaca pola súa capacidade para xestionar fluxos de traballo complexos mentres mantén unha conversa fluída. A diferenza das versións anteriores, este sistema pode razoar sobre a marcha, admitir interrupcións sen perder o fío e utilizar ferramentas de forma audible mentres o usuario segue falando. Para os desenvolvedores, isto tradúcese nunha maior flexibilidade, permitindo axustar o nivel de esforzo de razoamento entre cinco graos distintos para equilibrar a latencia e a precisión segundo a necesidade do servizo.
Xunto a este avance en razoamento, a compañía lanzou GPT-Realtime-Translate e GPT-Realtime-Whisper. O primeiro é un modelo de tradución en vivo capaz de procesar máis de 70 linguas de entrada e converter o discurso en trece linguas de saída sen apenas retardo. Pola súa banda, a nova versión de Whisper ofrece unha transcrición por streaming de baixa latencia, ideal para subtitulado en directo ou notas de reunións que se xeran ao mesmo ritmo que as palabras son pronunciadas.
A integración destas ferramentas xa está a dar os seus primeiros froitos en sectores como o inmobiliario ou o turístico. Empresas como Zillow ou Priceline están a utilizar estas capacidades para crear axentes de voz que poden axudar a un usuario a planificar unha viaxe ou buscar unha vivenda mediante comandos naturais e complexos. O incremento do contexto ata os 128K tokens permite que estas sesións sexan moito máis longas e coherentes, retendo información técnica e terminoloxía especializada que antes se perdía en conversas prolongadas.
En canto á seguridade e os custos, OpenAI implementou clasificadores activos para supervisar as sesións en tempo real e evitar usos que vulneren as súas políticas de contido. O modelo GPT-Realtime-2 ten un prezo de 32 dólares por cada millón de tokens de audio de entrada e 64 dólares por millón de saída. Pola súa parte, os servizos de tradución e transcrición prácense por minutos de uso, situándose en 0,034 e 0,017 dólares respectivamente. Con esta proposta, a tecnoloxía de voz deixa de ser un simple complemento para converterse nunha interface central onde a velocidade de resposta e a intelixencia profunda son, por fin, unha realidade.

Vídeo de presentación dos novos modelos de OpenAI