Mitigación de las alucinaciones con IA: dos cerebros son mejores que uno

A medida que la IA generativa (genAI) continúa siendo ampliamente utilizada por el público y diversas empresas, su adopción a veces está plagada de errores, problemas de infracción de derechos de autor y alucinaciones absolutas, lo que socava la confianza en su precisión.

Uno estudio de la Universidad de Stanford Descubrió que genAI comete errores al responder preguntas legales el 75% de las veces. “Por ejemplo”, encontró el estudio, “en una tarea que mide la relación de precedencia entre dos diferentes [court] En muchos casos, la mayoría de los LLM no hacen más que adivinar al azar”.

El problema es que el grandes modelos de lenguaje (LLM) detrás de la tecnología genAI, como OpenAI GPT-4, Meta’s Llama 2 y PaLM 2 de Googleno sólo son amorfos con parámetros inespecíficos, sino que también están entrenados por seres humanos falibles que tienen prejuicios innatos.

Los LLM se han caracterizado como loros estocásticos — a medida que crecen, se vuelven más aleatorios en sus respuestas conjeturales o aleatorias. Estos «motores de predicción de la siguiente palabra“Continúan repitiendo como loros lo que les han enseñado, pero sin un marco lógico.

Un método para reducir las alucinaciones y otros errores relacionados con la genAI es Recuperación Generación Aumentada o “RAG”, un método para crear un modelo genAI más personalizado que permite respuestas más precisas y específicas a las consultas.

Pero RAG no soluciona el problema de la genAI porque todavía no existen reglas lógicas para su razonamiento.

En otras palabras, el procesamiento del lenguaje natural de genAI no tiene reglas de inferencia transparentes para obtener conclusiones (resultados) confiables. Lo que se necesita, argumentan algunos, es un “lenguaje formal” o una secuencia de declaraciones (reglas o barreras de seguridad) para garantizar conclusiones confiables en cada paso del camino hacia la respuesta final que proporciona la genAI. El procesamiento del lenguaje natural, en ausencia de un sistema formal para una semántica precisa, produce significados que son subjetivos y carecen de una base sólida.

Pero con seguimiento y evaluación, la genAI puede producir respuestas mucho más precisas.

«En pocas palabras, es similar al acuerdo sencillo de que 2+2 es igual a 4. No hay ambigüedad con esa respuesta final de 4», David Ferrucci, fundador y director ejecutivo de Elemental Cognition, escribió en una publicación de blog reciente.

Ferrucci es un científico informático que trabajó como investigador principal para IBM. watson Supercomputadora, el procesador de lenguaje natural que ganó el concurso de televisión. ¡Peligro! En 2011.

Un ejemplo reciente de genAI que se extravía enormemente implica El nuevo Géminis de Google herramienta, que tomó indicaciones de texto del usuario y creó imágenes que estaban claramente sesgadas hacia una determinada visión sociopolítica. Los mensajes de texto del usuario solicitan imágenes de nazis generados por nazis negros y asiáticos. Cuando se le pidió que hiciera un dibujo del Papa, Géminis respondió creando un Papa asiático, una mujer y un Papa negro.

Google se vio obligado a desconectar la plataforma para solucionar los problemas. Pero los problemas de Géminis no son únicos.

La cognición elemental desarrolló algo llamado «razonador neurosimbólico». El razonador, llamado Trenzaconstruye un modelo lógico del lenguaje que está leyendo de un LLM basado en entrevistas realizadas por los empleados de Ferrucci.

“Entrevistamos a los analistas de negocios y les decimos: ‘Déjenme asegurarme de que entiendo su problema. Repasemos las diversas reglas comerciales y restricciones y autorizaciones de relaciones que son importantes para usted’”, dijo Ferrucci. “Entonces lo que se obtiene es un modelo de conocimiento formal ejecutado por este razonador lógico formal que sabe cómo resolver estos problemas.

«En pocas palabras, utilizamos redes neuronales para aquello en lo que son buenas, luego añadimos lógica, transparencia, explicabilidad y aprendizaje colaborativo», dijo Ferrucci. “Si intenta hacer esto de principio a fin con un LLM, cometerá errores y no sabrá que ha cometido errores. Nuestra arquitectura no es solo una arquitectura de LLM”.

Subodha Kumar, profesor de estadística, operaciones y ciencia de datos en la Universidad de Temple, dijo que ninguna plataforma genAI estará exenta de sesgos, «al menos en el futuro cercano».

«Más plataformas de propósito general tendrán más sesgos», dijo Kumar. «Es posible que veamos el surgimiento de muchas plataformas especializadas que están entrenadas en datos y modelos especializados con menos sesgos. Por ejemplo, podemos tener un modelo separado para la oncología en el sector sanitario y un modelo separado para la fabricación».

Ingeniería rápida, que es la forma en que las personas perfeccionan los LLM para proporcionar respuestas específicas del negocio, se reemplaza por un conjunto de reglas lógicas; Según Ferrucci, esas reglas pueden garantizar una conversación precisa e inequívoca dirigida por un razonador de propósito general que puede impulsar una conversación interactiva a través de un LLM.

Elemental Cognition se encuentra entre una serie de nuevas empresas y proveedores de servicios en la nube establecidos, incluido IBM, que crean herramientas de monitoreo, evaluación y observabilidad de genAI que actúan como una especie de suma de verificación de sus resultados. En algunos casos, esas tecnologías de suma de comprobación son otros motores de IA; en otras palabras, una plataforma de IA monitorea otra plataforma de IA para ayudar a garantizar que la primera no arroje respuestas o contenido erróneos.

Junto con Elemental Cognition, las empresas que ofrecen este tipo de herramientas genAI incluyen Gritó, Era verdaderay bucle humano. Una variedad de plataformas de aprendizaje automático como robot de datos También se están moviendo hacia el campo del monitoreo de IA, según Kathy Lang, directora de investigación de la práctica de IA y Automatización de IDC.

Hasta ahora, monitorear los resultados de genAI generalmente ha requerido mantener a un ser humano informado, especialmente dentro de las implementaciones empresariales. Si bien es probable que ese sea el caso en el futuro previsible, la tecnología de seguimiento y evaluación puede reducir drásticamente la cantidad de errores de IA.

“Se puede hacer que los humanos juzguen los resultados y las respuestas de los LLM y luego incorporen esa retroalimentación en los modelos, pero esa práctica no es escalable. También puede utilizar funciones de evaluación u otros LLM para juzgar el resultado de otros LLM”, dijo Lang. «Definitivamente se está convirtiendo en una tendencia».

Lang coloca el software de monitoreo LLM en la categoría de operaciones de modelos de lenguaje grandes (LLMOps), que generalmente evalúan y depuran aplicaciones basadas en LLM. De manera más general, se llama Foundation Model Ops o FMOps.

«FMOps se… utiliza explícitamente para automatizar y optimizar el ciclo de vida de genAI», dijo Lang. «La naturaleza subjetiva de los modelos genAI requiere algunas nuevas herramientas, procesos y mejores prácticas de FMOps. Las capacidades de FMOps incluyen probar, evaluar, rastrear y comparar modelos básicos; adaptarlos y ajustarlos con nuevos datos; desarrollar modelos derivados personalizados; depurar y optimizar el rendimiento e implementar y monitorear aplicaciones basadas en FM en producción.

«Son literalmente operaciones de aprendizaje automático para LLM… que se centran en nuevos conjuntos de herramientas, principios arquitectónicos y mejores prácticas para poner en funcionamiento el ciclo de vida de las aplicaciones basadas en LLM», dijo Lang.

Por ejemplo, Arize herramienta fénix utiliza un LLM para evaluar otro en cuanto a relevancia, toxicidad y calidad de las respuestas. La herramienta utiliza “Rastros”para registrar las rutas tomadas por las solicitudes de LLM (realizadas por una aplicación o un usuario final) a medida que se propagan a través de múltiples pasos. un acompañante Especificación de OpenInference utiliza datos de telemetría para comprender la ejecución de LLM y el contexto de la aplicación circundante. En resumen, es posible determinar dónde se interrumpió un flujo de trabajo de LLM o solucionar problemas relacionados con la recuperación y la ejecución de herramientas.

Avivah Litan, distinguida vicepresidenta analista de Gartner Research, dijo que las tecnologías de seguimiento y evaluación del LLM funcionan de diferentes maneras. Algunos, dijo, verifican la fuente de los datos e intentan comprobar la procedencia de la respuesta del LLM, «y si no pueden encontrar ninguna, asumen que es una alucinación».

Otras tecnologías buscan contradicciones entre las incrustaciones de entrada y salida, y si no coinciden o «no cuadran», se marca como una alucinación. De lo contrario, se considera una respuesta apropiada.

Las tecnologías de otros proveedores buscan “valores atípicos” o respuestas fuera de lo común.

De la misma manera que opera la búsqueda en Google, la información de la base de datos se transforma en datos numéricos, una práctica conocida como “incrustación”. Por ejemplo, a un hotel de una región se le puede asignar una designación de cinco dígitos debido a su precio, servicios y ubicación. Si busca en Google hoteles en un área con precios y servicios similares, el motor de búsqueda mostrará todos los hoteles con números similares.

De la misma manera, el software de evaluación LLM busca respuestas similares a la incrustación, o los datos que más se parecen a la consulta. “Si es algo [that’s] lejos de esa incrustación, entonces eso indica un valor atípico, y luego puedes buscar por qué es un valor atípico. Luego se puede determinar que no es una fuente de datos correcta”, dijo Litan. «A Google le gusta ese método porque tiene todos los datos y capacidades de búsqueda».

Otra forma en que las herramientas de evaluación de LLM pueden minimizar las alucinaciones y los resultados erróneos es buscar la fuente de la respuesta que se da. Si no hay una fuente creíble, significa que es una alucinación.

«Todos los principales proveedores de nube también están trabajando en tipos similares de tecnología que ayudan a ajustar y evaluar las aplicaciones LLM», dijo Lang.

Enlace fuente