OpenAI presenta un axente de IA capaz de navegar pola web

xoves, 23 de xaneiro do 2025 Redacción

OpenAI anunciou hoxe o lanzamento Operator⁠, un axente que pode navegar pola web para realizar tarefas polo usuario. Usando un navegador de seu, pode visualizar páxinas web e interactuar con elas escribindo, facendo clic ou desprazándose. Actualmente atópase nunha fase de vista previa para investigación, o que significa que ten limitacións e evolucionará segundo o feedback dos usuarios. Operator é un dos primeiros axentes de OpenAI, que son intelixencias artificiais capaces de traballar de forma independente, executando as tarefas que indique o usuario.
Operator pode realizar unha ampla variedade de tarefas repetitivas no navegador, como encher formularios, pedir a compra ou mesmo crear memes. A capacidade de usar as mesmas interfaces e ferramentas coas que as persoas interactúan a diario amplía a utilidade da IA, axudando a aforrar tempo en tarefas cotiás e abrindo novas oportunidades de interacción para as empresas.
Para garantir un lanzamento seguro e progresivo, OpenAI limita a dispoñibilidade de Operator a usuarios Pro nos Estados Unidos nunha vista previa para investigación que servirá para que coñecer mellor como interactúa o usuario e para refinar o sistema, antes de abrilo ao resto de usuarios de pagamento de ChatGPT.
Operator funciona grazas a un novo modelo chamado Computer-Using Agent (CUA). Combinando as capacidades visuais de GPT-4o cun razoamento avanzado a través de aprendizaxe por reforzo, CUA está adestrado para interactuar con interfaces gráficas de usuario (GUI), como botóns, menús e campos de texto que as persoas ven na pantalla.
Operator pode ver (a través de capturas de pantalla) e interactuar (usando todas as accións que permite un rato e un teclado) cun navegador, o que lle permite actuar na páxina web sen necesidade de integracións API personalizadas.
Se atopa dificultades ou comete erros, Operator pode empregar as súas capacidades de razoamento para autocorrixirse. Cando se queda atoado ou precisa axuda, devolve o control ao usuario, asegurando unha experiencia fluída e colaborativa.
Para comezar a usar Operator chega con describir a tarefa a realizar, para que Operator se encargue do resto. Os usuarios poden tomar o control do navegador remoto en calquera momento, e Operator está adestrado para pedir proactivamente ao usuario que interveña en tarefas que requiran inicio de sesión, detalles de pagamento ou resolver os CAPTCHA.
Os usuarios poden personalizar os seus fluxos de traballo en Operator engadindo instrucións personalizadas, xa sexa para todos os sitios ou para sitios específicos, como establecer preferencias de compañías aéreas en Booking.com. Operator tamén permite gardar solicitudes para acceso rápido na páxina de inicio, ideal para tarefas repetitivas como repoñer a compra en Instacart. Similar ao uso de varias pestanas nun navegador, os usuarios poden facer que Operator realice varias tarefas simultaneamente.
Dende OpenAI son conscientes dos posible abusos desta tecnoloxía, polo que deseñaron Operator para rexeitar solicitudes nocivas e bloquear contidos non permitidos, e irán mellorando as salvagardas en función dos posibles usos maliciosos que vaian detectando.

Vídeo de demostración de Operator