Esta semana una startup llamada Cognición de IA causó un poco de revuelo al liberar una demostración mostrando un inteligencia artificial programa llamado Devin que realiza trabajos generalmente realizados por ingenieros de software bien remunerados. Los chatbots como ChatGPT y Gemini pueden generar código, pero Devin fue más allá: planificó cómo resolver un problema, escribió el código y luego lo probó e implementó.
Los creadores de Devin lo califican como un «desarrollador de software de inteligencia artificial». Cuando se le pidió que probara cómo funciona Meta modelo de lenguaje de código abierto Llama 2 realizado cuando se accede a través de diferentes empresas que lo alojan, Devin generó un plan paso a paso para el proyecto, generó el código necesario para acceder a las API y ejecutar pruebas de evaluación comparativa, y creó un sitio web que resume los resultados.
Siempre es difícil juzgar las demostraciones en escena, pero Cognition ha demostrado que Devin maneja una amplia gama de tareas impresionantes. Él cautivó a inversores e ingenieros en X, recibiendo un montón de respaldose incluso inspirado algunos memes—incluyendo algunas predicciones de que Devin pronto estará responsable para una ola de despidos en la industria tecnológica.
Devin es sólo el ejemplo más reciente y pulido de una tendencia que he estado siguiendo durante algún tiempo: el surgimiento de agentes de IA que, en lugar de simplemente brindar respuestas o consejos sobre un problema presentado por un humano, pueden tomar medidas para resolverlo. Hace unos meses yo prueba de manejo Auto-GPT, un programa de código abierto que intenta realizar tareas útiles realizando acciones en la computadora de una persona y en la web. Recientemente, yo Probé otro programa llamado vimGPT. para ver cómo las habilidades visuales de los nuevos modelos de IA pueden ayudar a estos agentes a navegar por la web de manera más eficiente.
Me impresionaron mis experimentos con esos agentes. Sin embargo, por ahora, al igual que los modelos de lenguaje que los impulsan, cometen bastantes errores. Y cuando una pieza de software realiza acciones, no solo genera texto, un error puede significar un fracaso total y consecuencias potencialmente costosas o peligrosas. Reducir el rango de tareas que un agente puede realizar a, digamos, un conjunto específico de tareas de ingeniería de software parece una forma inteligente de reducir la tasa de error, pero todavía hay muchas formas potenciales de fallar.
No sólo las startups están creando agentes de IA. A principios de esta semana yo escribió sobre un agente llamado SIMAdesarrollado por Google DeepMind, que reproduce videojuegos, incluido el título verdaderamente loco Simulador de cabra 3. SIMA aprendió observando a jugadores humanos cómo realizar más de 600 tareas bastante complicadas, como talar un árbol o disparar a un asteroide. Lo más importante es que puede realizar muchas de estas acciones con éxito incluso en un juego desconocido. Google DeepMind lo llama «generalista».
Sospecho que Google tiene esperanzas de que estos agentes eventualmente trabajen fuera de los videojuegos, tal vez ayudando a usar la web en nombre de un usuario u operando software para él. Pero los videojuegos son un buen entorno de pruebas para desarrollar y probar agentes, al proporcionar entornos complejos en los que se pueden probar y mejorar. «Estamos trabajando activamente en hacerlos más precisos», me dijo Tim Harley, científico investigador de Google DeepMind. «Tenemos varias ideas».
Puede esperar muchas más noticias sobre los agentes de IA en los próximos meses. Demis Hassabis, director ejecutivo de Google DeepMind, recientemente me dijo que planea combinar grandes modelos de lenguaje con el trabajo que su empresa ha realizado anteriormente entrenando programas de inteligencia artificial para jugar videojuegos para desarrollar agentes más capaces y confiables. “Esta definitivamente es un área enorme. Estamos invirtiendo mucho en esa dirección y me imagino que otros también lo están haciendo”. Dijo Hassabis. «Será un cambio radical en las capacidades de este tipo de sistemas, cuando comiencen a parecerse más a agentes».