Nadie sabe si la inteligencia artificial será una bendición o una maldición en el futuro lejano. Pero en este momento, existe una incomodidad y un desprecio casi universal por un hábito de estos chatbots y agentes: las alucinaciones, esos hechos inventados que aparecen en los resultados de grandes modelos de lenguaje como ChatGPT. En medio de lo que parece una respuesta cuidadosamente construida, el LLM deslizará algo que parece razonable pero que es una total invención. Un chatbot típico puede hacer que el excongresista caído en desgracia George Santos se parezca a Abe Lincoln. Dado que parece inevitable que algún día los chatbots generen la gran mayoría de toda la prosa jamás escrita, todas las empresas de inteligencia artificial están obsesionadas con minimizar y eliminar las alucinaciones, o al menos convencer al mundo de que el problema está bajo control.
Obviamente, el valor de los LLM alcanzará un nuevo nivel cuando las alucinaciones se acerquen a cero. Pero antes de que eso suceda, les pido que brinden por las fabulaciones de la IA.
Las alucinaciones me fascinan, aunque los científicos de inteligencia artificial tienen una idea bastante clara de por qué ocurren. Una startup de IA llamada Vectara los ha estudiado y su prevalencia, incluso compilando las tasas de alucinaciones de varios modelos cuando se le pide que resuma un documento. (El GPT-4 de OpenAI funciona mejor, alucinando sólo alrededor del 3 por ciento de las veces; el ahora obsoleto Palm Chat de Google, ¡no su chatbot Bard!, tuvo una impactante tasa del 27 por ciento, aunque para ser justos, resumir documentos no estaba en la timonera de Palm Chat. .) El CTO de Vectara, Amin Ahmad, dice que los LLM crean una representación comprimida de todos los datos de entrenamiento alimentados a través de sus neuronas artificiales. «La naturaleza de la compresión es que los detalles finos pueden perderse», afirma. Un modelo termina preparado con las respuestas más probables a las consultas de los usuarios, pero no tiene los datos exactos a su disposición. «Cuando llega a los detalles, empieza a inventar cosas», dice.
Santosh Vempala, profesor de informática en Georgia Tech, también ha estudiado las alucinaciones. «Un modelo de lenguaje es sólo un modelo probabilístico del mundo», dice, no un espejo veraz de la realidad. Vempala explica que la respuesta de un LLM se esfuerza por lograr una calibración general con el mundo real, tal como se representa en sus datos de capacitación, que es «una versión débil de la precisión». Su investigacionpublicado con Adam Kalai de OpenAI, descubrió que las alucinaciones son inevitables para hechos que no se pueden verificar utilizando la información de los datos de entrenamiento de un modelo.
Esa es la ciencia/matemática de las alucinaciones de IA, pero también son notables por la experiencia que pueden provocar en los humanos. A veces, estas fabricaciones generativas pueden parecer más plausibles que los hechos reales, que a menudo son sorprendentemente extraños e insatisfactorios. ¿Con qué frecuencia escuchas describir algo tan extraño que ningún guionista se atrevería a incluirlo en una película? ¡Estos días, todo el tiempo! Las alucinaciones pueden seducirnos al parecer que nos conectan con un mundo menos discordante que el actual en el que vivimos. Es más, me resulta revelador observar qué detalles tienden a inventar los robots. En su intento desesperado por llenar los espacios en blanco de una narrativa satisfactoria, gravitan hacia la versión estadísticamente más probable de la realidad representada en sus datos de entrenamiento a escala de Internet, que puede ser una verdad en sí misma. Lo comparo con un escritor de ficción que escribe una novela inspirada en hechos reales. Un buen autor se desviará de lo que realmente sucedió hacia un escenario imaginado que revela una verdad más profunda, esforzándose por crear algo. más real que la realidad.
Cuando le pedí a ChatGPT que me escribiera un obituario (admítelo, tú también lo has intentado), hizo muchas cosas bien pero algunas mal. Me dio nietos que no tenía, me otorgó una fecha de nacimiento más temprana y añadió un Premio Nacional de Revista a mi currículum por artículos que no escribí sobre la quiebra de las puntocom a finales de los noventa. En la evaluación de mi vida que hizo el LLM, esto es algo que debería han sucedido basándose en los hechos de mi carrera. ¡Estoy de acuerdo! Es sólo por la imperfección de la vida real que la Sociedad Estadounidense de Editores de Revistas no me otorgó la escultura de elefante de metal que viene con ese honor. Después de casi 50 años escribiendo revistas, ¡eso depende de ellos, no de mí! Es casi como si ChatGPT hiciera una encuesta sobre posibles multiversos y descubriera que en la mayoría de ellos tenía un premio Ellie. Claro, hubiera preferido que, aquí en mi propio rincón del multiverso, jueces humanos me hubieran llamado al podio. Pero el reconocimiento de una red neuronal artificial es mejor que nada.