Google presenta o modelo Gemini 2.5 Computer Use
martes, 7 de outubro do 2025
Google anunciou o lanzamento en vista previa do modelo Gemini 2.5 Computer Use, unha nova versión especializada construÃda sobre Gemini 2.5 Pro que permite crear axentes capaces de interactuar directamente con interfaces de usuario. A través da API de Gemini, os desenvolvedores poden acceder a esta tecnoloxÃa tanto en Google AI Studio como en Vertex AI.
Segundo a compañÃa, o modelo supera as alternativas actuais en diversas probas de control web e móbil, cunha menor latencia. O seu obxectivo é facilitar que os axentes realicen tarefas dixitais que requiren accións manuais sobre interfaces gráficas, como encher e enviar formularios, empregar menús despregables, aplicar filtros ou operar tras un inicio de sesión, replicando o comportamento humano de facer clic, escribir ou desprazarse pola pantalla.
O funcionamento baséase nun novo compoñente denominado computer_use dentro da API de Gemini, que se executa en bucle. O modelo recibe como entrada a solicitude do usuario, unha captura de pantalla do entorno e o historial recente de accións. A saÃda adoita ser unha chamada de función que representa unha acción de interface (clic, escritura, etc.), e pode incluÃr tamén peticións de confirmación cando a operación o require, por exemplo no caso de realizar unha compra. Tras executar a acción, o sistema devolve unha nova captura de pantalla e o URL actual ao modelo, que analiza de novo o contexto ata completar a tarefa ou detectar un erro.
AÃnda que está principalmente optimizado para o control de navegadores web, o modelo tamén amosa un bo rendemento en móbiles. Polo de agora non está deseñado para o control de sistemas operativos de escritorio.
En canto á seguridade, Google destaca que incorporou salvagardas tanto no adestramento do modelo como no seu uso, para mitigar riscos como o uso indebido, o comportamento inesperado ou as inxeccións de prompt e estafas en liña. Entre as medidas implementadas inclúense un servizo de avaliación de seguridade que revisa cada acción antes da súa execución, asà como instrucións de sistema que permiten solicitar confirmación do usuario ou bloquear accións de alto risco, como comprometer a integridade do sistema, eludir CAPTCHA ou interactuar con dispositivos médicos.
Equipos internos de Google xa empregan este modelo en produción para tarefas de probas de interface, o que acelera o desenvolvemento de software. Tamén se utiliza en proxectos como Mariner, o axente de probas de Firebase e algunhas funcións axenciais do modo IA nas buscas de Google.
VÃdeo de exemplo de uso do novo modelo ante a instrución: «Desde https://tinyurl.com/pet-care-signup, obtén todos os datos de calquera mascota con residencia en California e engádea como convidada no meu CRM do spa en https://pet-luxe-spa.web.app/. Despois, programa unha cita de seguimento coa especialista Anima Lavar para o 10 de outubro a calquera hora despois das 8 da mañá. O motivo da visita é o mesmo que o tratamento solicitado.»
