Presentan un nuevo modelo de IA capaz de manejar un ordenador por sí solo

Anthropic, empresa emergente de investigación y desarrollo de inteligencia artificial (IA), anuncia una actualización del modelo Claude 3.5 Sonnet. Esta mejora tiene la capacidad de analizar la información que hay en una pantalla de un ordenador, mover un cursor, hacer clic y escribir texto. Además, dicha característica, disponible en una versión beta pública, se llama "uso del ordenador" y, según indica la empresa, "los desarrolladores pueden pedir a Claude que use los equipos de la misma manera que lo hacen las personas".

Claude 3.5 Sonnet es el primer modelo de IA que ofrece este tipo de servicio, no obstante, Anthropic afirma en su blog oficial que esta etapa "todavía es experimental” y "es propensa a errores": "Estamos lanzando el uso del ordenador de manera anticipada para recibir comentarios de los desarrolladores y esperamos que la capacidad mejore rápidamente con el tiempo”.

Pero, ¿qué aplicaciones o plataformas pueden usar esta novedad? Anthropic anuncia que Asana, Canva, Cognition, DoorDash, Replit y The Browser Company han llevado a cabo tareas que requieren varios pasos para completarse. Además, Replit está utilizando las capacidades de Claude 3.5 Sonnet, con el uso del ordenador y la navegación de la interfaz de usuario, para desarrollar "una función clave que evalúa las aplicaciones mientras se crean para su producto Replit Agent".

Respecto a su disponibilidad, la versión actualizada de Claude 3.5 Sonnet ya está disponible para todos los usuarios.

Qué avances promete esta función

Anthropic quiere ayudar a su modelo Claude a completar tareas individuales para automatizar procesos repetitivos, crear y probar software, y realizar tareas abiertas como la investigación. Para ello, esta empresa de investigación ha creado una API que permite a la inteligencia artificial percibir e interactuar con interfaces de ordenador.

Una IA súper precisa

Esta versión actualizada de Claude 3.5 Sonnet "mejora el rendimiento en SWE-bench Verified del 33,4% al 49,0%, con una puntuación más alta que todos los modelos disponibles públicamente, incluidos los modelos de razonamiento como OpenAI o1-preview y los sistemas especializados diseñados para codificación de agente", apunta Anthropic.