Como plataformas de IA generativa (genAI) como ChatGPT, Dall-E2y código alfa Avanzando a un ritmo vertiginoso, es casi imposible evitar que las herramientas alucinen y arrojen respuestas erróneas u ofensivas.
Hasta la fecha, ha habido Algunos métodos para garantizar información precisa. esta saliendo del grandes modelos de lenguaje (LLM) que sirven como base para genAI.
A medida que las herramientas de inteligencia artificial evolucionen y mejoren en la imitación del lenguaje natural, pronto será imposible distinguir los resultados falsos de los reales, lo que llevará a las empresas a establecer “barandillas” contra los peores resultados, ya sean esfuerzos accidentales o intencionales de malos actores.
Sin embargo, hasta la fecha, existen pocas herramientas que puedan garantizar que lo que entra en un LLM y lo que sale es totalmente confiable. La IA de generación puede alucinar cuando los motores de próxima generación, como ChatGPTCopiloto de Microsoft y El bardo de Googledescarrilarse y comenzar a arrojar información falsa o engañosa.
En septiembre, una startup fundada por dos ex investigadores de Meta AI lanzó una plataforma automatizada de evaluación y seguridad que ayuda a las empresas a utilizar los LLM de forma segura mediante el uso de pruebas contradictorias para monitorear los modelos en busca de inconsistencias, imprecisiones, alucinaciones y sesgos.
IA patronus dijo que sus herramientas pueden detectar información inexacta y cuando un LLM expone involuntariamente datos privados o confidenciales.
“Todas estas grandes empresas se están sumergiendo en los LLM, pero lo hacen a ciegas; están tratando de convertirse en evaluadores externos de modelos”, dijo Anand Kannanappan, fundador y director ejecutivo de Patronus. “La gente no confía en la IA porque no está segura de si produce alucinaciones. Este producto es un control de validación”.
El conjunto de herramientas de diagnóstico SimpleSafetyTests de Patronus utiliza 100 mensajes de prueba diseñados para probar los sistemas de IA en busca de riesgos críticos para la seguridad. La compañía ha utilizado su software para probar algunas de las plataformas genAI más populares, incluido ChatGPT de OpenAI y otros chatbots de IA para ver, por ejemplo, si podían entender los documentos presentados ante la SEC. Patronus dijo que los chatbots fallaron alrededor del 70% de las veces y solo tuvieron éxito cuando se les dijo exactamente dónde buscar información relevante.
«Ayudamos a las empresas a detectar errores en los modelos lingüísticos a escala de forma automatizada», explicó Kannanappan. “Las grandes empresas están gastando millones de dólares en equipos internos de control de calidad y consultores externos para detectar manualmente los errores en las hojas de cálculo. Algunas de esas empresas de control de calidad están invirtiendo mucho tiempo en ingeniería creando casos de prueba para evitar que se produzcan estos errores”.
Avivah Litan, vicepresidente y analista distinguido de la firma de investigación Gartner, dijo que las tasas de alucinaciones por IA “están por todas partes” del 3% al 30% del tiempo. Simplemente todavía no hay muchos datos buenos sobre el tema.
Gartner, sin embargo, predijo que hasta 2025, genAI requerirá más recursos de ciberseguridad para protegerse, lo que provocará un aumento del 15% en el gasto.
Las empresas que incursionan en implementaciones de IA deben reconocer que no pueden permitir que funcionen en “piloto automático” sin tener un humano al tanto para identificar los problemas, dijo Litan. «La gente eventualmente se dará cuenta de esto y probablemente comenzarán a despertarse con el Copilot de Microsoft para 365, porque eso pondrá estos sistemas en manos de los principales usuarios», dijo.
(Bing de Microsoft El chatbot pasó a llamarse Copilot y se vende como parte de Microsoft 365).
Gartner ha establecido 10 requisitos que las empresas deben considerar para la gestión de la confianza, el riesgo y la seguridad al implementar LLM. Los requisitos se dividen en dos categorías principales: exposición de datos confidenciales y toma de decisiones defectuosa como resultado de resultados inexactos o no deseados.
Los proveedores más importantes, como Microsoft con Copilot 365, sólo cumplen uno de esos cinco requisitos, dijo Litan. El único área en la que Copilot es competente es en garantizar que se genere información precisa cuando solo se ingresan datos privados de la empresa. Sin embargo, la configuración predeterminada de Copilot le permite utilizar información extraída de Internet, lo que automáticamente pone a los usuarios en peligro de obtener resultados erróneos.
«No hacen nada para filtrar las respuestas y detectar resultados no deseados como alucinaciones o imprecisiones», dijo Litan. “No respetan sus políticas empresariales. Te dan información sobre la procedencia del contenido de las fuentes de las respuestas, pero muchas veces son inexactas y es difícil encontrar las fuentes”.
Microsoft hace un buen trabajo con la clasificación de datos y la gestión de acceso si una empresa tiene una licencia E5, explicó Litan, pero aparte de algunos controles de seguridad tradicionales, como el cifrado de datos, la empresa no está haciendo nada específico de IA para la verificación de errores.
“Eso es cierto para la mayoría de los proveedores. Entonces, necesitas estas herramientas adicionales”, dijo.
Un portavoz de Microsoft dijo que sus investigadores y equipos de ingeniería de productos «han logrado avances en técnicas de conexión a tierra, ajuste y dirección para ayudar a abordar cuándo un modelo de IA o un chatbot de IA fabrica una respuesta. Esto es fundamental para desarrollar la IA de manera responsable».
Microsoft dijo que utiliza datos actualizados de fuentes como el índice de búsqueda de Bing o Microsoft Graph para garantizar que se introduzca información precisa en su LLM basado en GPT.
«También hemos desarrollado herramientas para medir cuándo el modelo se desvía de sus datos de conexión a tierra, lo que nos permite aumentar la precisión de los productos a través de una mejor ingeniería y calidad de los datos», dijo el portavoz.
Si bien los enfoques de Microsoft «reducen significativamente las imprecisiones en los resultados del modelo», los errores aún son posibles, y trabaja para notificar a los usuarios sobre ese potencial. «Nuestros productos están diseñados para tener siempre a un ser humano al tanto, y con cualquier sistema de inteligencia artificial animamos a las personas a verificar la exactitud del contenido», dijo el portavoz.
Bing Copilot puede incluir enlaces a fuentes para ayudar a los usuarios a verificar sus respuestas, y la empresa creó una herramienta de moderación de contenido llamada Seguridad del contenido de IA de Azure para detectar contenido ofensivo o inapropiado.
«Seguimos probando técnicas para entrenar la IA y enseñarle a detectar ciertos comportamientos no deseados y estamos realizando mejoras a medida que aprendemos e innovamos», dijo el portavoz.
Incluso cuando las organizaciones trabajan duro para garantizar que los resultados de un LLM sean confiables, dijo Litan, esos sistemas inexplicablemente pueden volverse poco confiables sin previo aviso. “Hacen mucha ingeniería rápida y obtienen malos resultados; Luego se dan cuenta de que necesitan mejores herramientas de middleware: barreras de seguridad”, dijo Litan.
SimpleSafetyTests se utilizó recientemente para probar 11 LLM abiertos populares y encontró debilidades críticas de seguridad en varios. Si bien algunos de los LLM no ofrecieron una sola respuesta insegura, la mayoría sí respondió de manera insegura en más del 20% de los casos, «con más del 50% de respuestas inseguras en extremo», afirmaron los investigadores en un artículo publicado por la Universidad de Cornell en noviembre de 2023.
La mayoría de los clientes de Patronus han estado en industrias altamente reguladas, como la atención médica, los servicios legales o financieros, donde los errores pueden dar lugar a demandas o multas regulatorias.
«Tal vez sea un pequeño error que nadie nota, pero en el peor de los casos podrían ser alucinaciones que impactan grandes resultados financieros o de salud o una amplia gama de posibilidades», dijo Kannanappan. «Están intentando utilizar la IA en escenarios de misión crítica».
En noviembre, la empresa lanzó su FinanceBench, una herramienta de referencia para probar el desempeño de los LLM en cuestiones financieras. La herramienta pregunta a los LLM 10.000 pares de preguntas y respuestas basado en documentos financieros disponibles públicamente, como SEC 10K, SEC 10Q, SEC 8K, informes de ganancias y transcripciones de llamadas de ganancias. Las preguntas determinan si el LLM presenta información objetiva o respuestas inexactas.
El análisis inicial realizado por Patronus AI muestra que los sistemas de recuperación de LLM «fallan espectacularmente en un conjunto de preguntas de muestra de FinanceBench».
Según la propia evaluación de Patronus:
- El GPT-4 Turbo con sistema de recuperación falla el 81% de las veces;
- Llama 2 con sistema de recuperación también falla el 81% de las veces.
Patronus AI también evaluó los LLM con ventanas de respuesta de contexto largo y señaló que funcionan mejor, pero son menos prácticos para un entorno de producción.
- GPT-4 Turbo con contexto largo falla el 21% de las veces;
- El Claude-2 de Anthropic con contexto largo falla el 24% de las veces.
Kannanappan dijo que uno de los clientes de Patronus, una empresa de gestión de activos, creó un chatbot de inteligencia artificial para ayudar a los empleados a responder las preguntas de los clientes, pero tenía que asegurarse de que el chatbot no ofreciera recomendaciones de inversión para valores ni asesoramiento legal o fiscal.
«Eso podría poner a los negocios en riesgo y en una situación difícil con la SEC», dijo Kannanappan. “Resolvimos eso por ellos. Utilizaron nuestro producto para comprobar si el chatbot da recomendaciones. Puede decirles cuándo el chatbot se descarriló”.
Otra empresa que creó un chatbot quería realizar una verificación de validación para asegurarse de que no se saliera del tema. Así, por ejemplo, si un usuario le preguntara al chatbot sobre el tiempo o cuál es su película favorita, no respondería.
Rebecca Qian, cofundadora y directora de tecnología de Patronus, dijo que las alucinaciones son un problema particularmente grande para las empresas que intentan implementar herramientas de inteligencia artificial.
«Muchos de nuestros clientes están utilizando nuestro producto en escenarios de alto riesgo donde la información correcta realmente importa», dijo Qian. «Otros tipos de métricas que también están relacionadas son, por ejemplo, la relevancia: los modelos se salen del tema. Por ejemplo, no No quiero que el modelo que implemente en su producto diga nada que tergiverse su empresa o producto”.
Litan de Gartner dijo al final que tener un ser humano al tanto es fundamental para el éxito de las implementaciones de IA. Incluso con herramientas de middleware, es aconsejable mitigar los riesgos de resultados poco confiables «que pueden llevar a las organizaciones por un camino peligroso».
«A primera vista, no he visto ningún producto competitivo que sea tan específico en la detección de resultados no deseados en un sector determinado», afirmó. «Los productos que sigo en este espacio simplemente señalan anomalías y transacciones sospechosas que el usuario luego debe investigar (investigando la fuente de la respuesta)».
Copyright © 2024 IDG Communications, Inc.