
Aurich Lawson | imágenes falsas
Uno de los secretos peor guardados del mundo es que los grandes modelos de lenguaje dan respuestas descaradamente falsas a las consultas y lo hacen con una confianza que es indistinguible de cuando hacen las cosas bien. Hay un número de razones para esto. La IA podría haber sido entrenada con información errónea; la respuesta podría requerir alguna extrapolación de hechos que el LLM no es capaz de hacer; o algún aspecto de la formación del LLM podría haber incentivado una falsedad.
Pero quizás la explicación más simple es que un LLM no reconoce qué constituye una respuesta correcta pero se ve obligado a proporcionar una. Así que simplemente inventa algo, un hábito que tiene. ha sido denominado confabulación.
Descubrir cuándo un LLM está inventando algo obviamente tendría un valor tremendo, dada la rapidez con la que la gente ha comenzado a confiar en él para todo, desde ensayos universitarios hasta solicitudes de empleo. Ahora, investigadores de la Universidad de Oxford dicen que han encontrado una forma relativamente sencilla de determinar cuándo los LLM parecen estar confabulando y que funciona con todos los modelos populares y en una amplia gama de temas. Y, al hacerlo, desarrollan evidencia de que la mayoría de los datos alternativos que proporcionan los LLM son producto de la fabulación.
Atrapando confabulación
La nueva investigación trata estrictamente de confabulaciones y no de casos como el entrenamiento con información falsa. Como las define el equipo de Oxford en su artículo que describe el trabajo, las confabulaciones son lugares donde «los LLM hacen con fluidez afirmaciones que son a la vez incorrectas y arbitrarias, con lo que queremos decir que la respuesta es sensible a detalles irrelevantes como la semilla aleatoria».
El razonamiento detrás de su trabajo es bastante simple. Los LLM no están capacitados para ser precisos; simplemente están entrenados en cantidades masivas de texto y aprenden a producir frases que suenan humanas a través de eso. Si suficientes ejemplos de texto en su formación presentan consistentemente algo como un hecho, entonces es probable que el LLM lo presente como un hecho. Pero si los ejemplos en su formación son pocos o inconsistentes en sus hechos, entonces los LLM sintetizan una respuesta que suena plausible y que probablemente sea incorrecta.
Pero el LLM también podría encontrarse con una situación similar cuando tiene múltiples opciones para formular la respuesta correcta. Para usar un ejemplo del artículo de los investigadores, «París», «Está en París» y «La capital de Francia, París» son respuestas válidas a «¿Dónde está la Torre Eiffel?» Entonces, la incertidumbre estadística, denominada entropía en este contexto, puede surgir cuando el LLM no está seguro de cómo expresar la respuesta correcta o cuando no puede identificar la respuesta correcta.
Esto significa que no es una buena idea simplemente obligar al LLM a responder «No sé» cuando se enfrenta a varias respuestas aproximadamente equivalentes. Probablemente bloquearíamos muchas respuestas correctas al hacerlo.
En cambio, los investigadores se centran en lo que llaman entropía semántica. Esto evalúa todas las respuestas estadísticamente probables evaluadas por el LLM y determina cuántas de ellas son semánticamente equivalentes. Si un número grande tiene el mismo significado, entonces el LLM probablemente no esté seguro de la redacción, pero tenga la respuesta correcta. De lo contrario, presumiblemente se encuentra en una situación en la que sería propenso a la confabulación y se le debería impedir que lo haga.