Cómo probar modelos de lenguaje grandes

Hay mucho revuelo y entusiasmo en torno al uso Copilotos de IA reducir el trabajo manual, mejorando productividad del desarrollador de software con generadores de código, y innovando con IA generativa. Las oportunidades comerciales están impulsando a muchos equipos de desarrollo a crear bases de conocimiento con bases de datos vectoriales y incrustar modelos de lenguaje grandes (LLM) en sus aplicaciones.

Algunos casos de uso generales para crear aplicaciones con capacidades LLM incluyen buscar experiencias, generación de contenido, resumen de documentos, chatbots y aplicaciones de atención al cliente. Los ejemplos de la industria incluyen el desarrollo portales de pacientes en atención médica, mejorar los flujos de trabajo de los banqueros junior en los servicios financieros y allanando el camino para la el futuro de la fábrica en la fabricación.

Las empresas que invierten en LLM tienen algunos obstáculos iniciales, incluida la mejora dato de governancia en torno a la calidad de los datos, seleccionando un Arquitectura LLMdirigiéndose riesgos de seguridady desarrollando un plan de infraestructura en la nube.

Mis mayores preocupaciones radican en cómo las organizaciones planean probar sus modelos y aplicaciones LLM. Los problemas que aparecen en las noticias incluyen una aerolínea honrar un reembolso que ofreció su chatbotdemandas por infracción de copyrighty reduciendo la riesgo de alucinaciones.

«Probar modelos LLM requiere un enfoque multifacético que va más allá del rigor técnico», dice Amit Jain, cofundador y director de operaciones de caminoz. “Los equipos deben participar en mejoras iterativas y crear documentación detallada para recordar el proceso de desarrollo del modelo, las metodologías de prueba y las métricas de rendimiento. También es eficaz colaborar con la comunidad de investigación para comparar y compartir las mejores prácticas”.

4 estrategias de prueba para LLM integrados

Los equipos de desarrollo necesitan una estrategia de prueba de LLM. Considere como punto de partida las siguientes prácticas para probar LLM integrados en aplicaciones personalizadas:

Cree datos de prueba para ampliar el control de calidad del software
Automatizar las pruebas de rendimiento y calidad del modelo
Evalúe la calidad de RAG según el caso de uso
Desarrollar métricas y puntos de referencia de calidad.

Cree datos de prueba para ampliar el control de calidad del software

La mayoría de los equipos de desarrollo no crearán LLM generalizados y desarrollarán aplicaciones para usuarios finales y casos de uso específicos. Para desarrollar una estrategia de prueba, los equipos deben comprender las personas de los usuarios, los objetivos, el flujo de trabajo y los puntos de referencia de calidad involucrados.

«El primer requisito para probar un LLM es conocer la tarea que el LLM debería poder resolver», dice Jakob Praher, CTO de Brisa mental. “Para estas tareas, se construirían conjuntos de datos de prueba para establecer métricas para el desempeño del LLM. Luego, se pueden optimizar las indicaciones o ajustar el modelo sistemáticamente”.

Por ejemplo, un LLM diseñado para servicio al cliente podría incluir un conjunto de datos de prueba de problemas comunes de los usuarios y las mejores respuestas. Es posible que otros casos de uso de LLM no tengan medios sencillos para evaluar los resultados, pero los desarrolladores aún pueden usar los datos de prueba para realizar validaciones.

«La forma más confiable de probar un LLM es crear datos de prueba relevantes, pero el desafío es el costo y el tiempo para crear dicho conjunto de datos», dice Kishore Gadiraju, vicepresidente de ingeniería de Tecnologías Solix. “Como cualquier otro software, las pruebas LLM incluyen pruebas unitarias, funcionales, de regresión y de rendimiento. Además, las pruebas de LLM requieren pruebas de sesgo, equidad, seguridad, control de contenido y explicabilidad «.

Automatizar las pruebas de rendimiento y calidad del modelo

Una vez que haya un conjunto de datos de prueba, los equipos de desarrollo deben considerar varios enfoques de prueba según los objetivos de calidad, los riesgos y las consideraciones de costos. «Las empresas están empezando a adoptar métodos de evaluación automatizados, en lugar de evaluaciones humanas, debido a su eficiencia en términos de tiempo y costes», afirma Olga Megorskaya, directora ejecutiva de Posponer la IA. «Sin embargo, las empresas aún deberían contratar expertos en el campo para situaciones en las que sea crucial captar matices que los sistemas automatizados podrían pasar por alto».

Encontrar el equilibrio adecuado entre automatización y pruebas con humanos no es fácil para los desarrolladores o científicos de datos. «Sugerimos una combinación de evaluación comparativa automatizada para cada paso del proceso de modelado y luego una combinación de automatización y verificación manual para el sistema de un extremo a otro», dice Steven Hillion, vicepresidente senior de datos e inteligencia artificial de Astrónomo. “Para los principales lanzamientos de aplicaciones, casi siempre querrá una ronda final de validación manual con respecto a su conjunto de pruebas. Esto es especialmente cierto si ha introducido nuevas incorporaciones, nuevos modelos o nuevos mensajes que espera elevar el nivel general de calidad porque a menudo las mejoras son sutiles o subjetivas”.

Las pruebas manuales son una medida prudente hasta que existan plataformas sólidas de pruebas de LLM. Nikolaos Vasiloglou, vicepresidente de investigación de aprendizaje automático en IA relacional, afirma: “No existen plataformas modernas para realizar pruebas sistemáticas. Cuando se trata de confiabilidad y alucinaciones, un robot generador de preguntas con gráficos de conocimiento es la mejor solución”.

Gadiraju comparte las siguientes bibliotecas y herramientas de prueba de LLM:

Equidad de IA 360un conjunto de herramientas de código abierto que se utiliza para examinar, informar y mitigar la discriminación y el sesgo en los modelos de aprendizaje automático.
Evaluación profundaun marco de evaluación de LLM de código abierto similar a Pytest pero especializado en pruebas unitarias de resultados de LLM
carrera baseuna herramienta para ayudar a depurar, probar y mejorar modelos de forma iterativa
Nvidia NeMo-Guardrailsun conjunto de herramientas de código abierto para agregar restricciones programables en los resultados de un LLM

Monica Romila, directora de herramientas y tiempos de ejecución de ciencia de datos en Datos de IBM e IAcompartió dos áreas de prueba para LLM en casos de uso empresarial:

Evaluación de la calidad del modelo. Evalúa la calidad del modelo utilizando conjuntos de datos académicos e internos para casos de uso como clasificación, extracción, resumen, generación y recuperación de generación aumentada (TRAPO).
Pruebas de rendimiento del modelo valida la latencia del modelo (tiempo transcurrido para la transmisión de datos) y el rendimiento (cantidad de datos procesados en un período de tiempo determinado).

Romila dice que las pruebas de rendimiento dependen de dos parámetros críticos: la cantidad de solicitudes simultáneas y la cantidad de tokens generados (fragmentos de texto que utiliza un modelo). «Es importante probar varios tamaños y tipos de carga y comparar el rendimiento con los modelos existentes para ver si se necesitan actualizaciones».

Los arquitectos de DevOps y de la nube deben considerar los requisitos de infraestructura para realizar pruebas de carga y rendimiento de las aplicaciones LLM. «La implementación de una infraestructura de prueba para modelos de lenguaje grandes implica la configuración de recursos informáticos, soluciones de almacenamiento y marcos de prueba sólidos», afirma Heather Sundheim, directora general de ingeniería de soluciones de AHORA. «Las herramientas de aprovisionamiento automatizado como Terraform y los sistemas de control de versiones como Git desempeñan un papel fundamental en las implementaciones reproducibles y la colaboración efectiva, lo que enfatiza la importancia de equilibrar los recursos, el almacenamiento, las estrategias de implementación y las herramientas de colaboración para realizar pruebas LLM confiables».

Evalúe la calidad de RAG según el caso de uso

Algunas técnicas para mejorar la precisión de LLM incluyen centralizar el contenido, actualizar los modelos con los datos más recientes y utilizar RAG en el proceso de consultas. Los RAG son importantes para unir el poder de los LLM con la información patentada de una empresa.

En una aplicación LLM típica, el usuario ingresa un mensaje, la aplicación lo envía al LLM y el LLM genera una respuesta que la aplicación devuelve al usuario. Con RAG, la aplicación primero envía el mensaje a una base de datos de información, como un motor de búsqueda o una base de datos vectorial, para recuperar información relevante relacionada con el tema. La aplicación envía el mensaje y esta información contextual al LLM, que utiliza para formular una respuesta. Por tanto, el RAG limita la respuesta del LLM a información relevante y contextual.

Igor Jablokov, director ejecutivo y fundador de priondice, «RAG es más plausible para implementaciones de estilo empresarial donde es necesaria una atribución verificable al contenido fuente, especialmente en infraestructura crítica».

Se ha demostrado que el uso de RAG con un LLM reducir las alucinaciones y mejorar la precisión. Sin embargo, el uso de RAG también agrega un nuevo componente que requiere probar su relevancia y rendimiento. Los tipos de pruebas dependen de qué tan fácil sea evaluar las respuestas del RAG y LLM y en qué medida los equipos de desarrollo pueden aprovechar los comentarios de los usuarios finales.

Recientemente hablé con Deon Nicholas, director ejecutivo de Previsión, sobre las opciones para evaluar los RAG utilizados en la IA generativa de atención al cliente de su empresa. Compartió tres enfoques diferentes:

Conjuntos de datos estándar de oro, o conjuntos de datos etiquetados por humanos de respuestas correctas para consultas que sirven como punto de referencia para el rendimiento del modelo.
Aprendizaje reforzadoo probar el modelo en escenarios del mundo real, como preguntar el nivel de satisfacción de un usuario después de interactuar con un chatbot.
Redes adversariaso capacitar a un LLM secundario para evaluar el desempeño del primario, lo que proporciona una evaluación automatizada al no depender de la retroalimentación humana.

«Cada método conlleva compensaciones, equilibrando el esfuerzo humano con el riesgo de pasar por alto errores», dice Nicholas. «Los mejores sistemas aprovechan estos métodos en todos los componentes del sistema para minimizar los errores y fomentar una implementación sólida de la IA».

Desarrollar métricas y puntos de referencia de calidad.

Una vez que tenga datos de prueba, un LLM nuevo o actualizado y una estrategia de prueba, el siguiente paso es validar la calidad con respecto a los objetivos establecidos.

«Para garantizar el desarrollo de una IA segura y confiable, es importante crear KPI específicos y mensurables y establecer barreras de seguridad definidas», dice Atena Reyhani, directora de producto de ContratoPodAi. “Algunos criterios a considerar son la precisión, la coherencia, la velocidad y la relevancia para casos de uso de dominios específicos. Los desarrolladores deben evaluar todo el ecosistema LLM y el modelo operativo en el dominio objetivo para garantizar que brinde resultados precisos, relevantes e integrales”.

Una herramienta de la que aprender es la Arena de chatbots, un entorno abierto para comparar los resultados de los LLM. Utiliza el Sistema de clasificación Eloun algoritmo que se utiliza a menudo para clasificar a los jugadores en juegos competitivos, pero que funciona bien cuando una persona evalúa la respuesta de diferentes algoritmos o versiones de LLM.

«La evaluación humana es una parte central de las pruebas, particularmente cuando se endurece un LLM para consultas que aparecen en la naturaleza», dice Joe Regensburger, vicepresidente de investigación de Disfrutándola. «Chatbot Arena es un ejemplo de pruebas de crowdsourcing, y este tipo de estudios de evaluadores humanos pueden proporcionar un circuito de retroalimentación importante para incorporar los comentarios de los usuarios».

Romila de IBM Data and AI compartió tres métricas a considerar según el caso de uso del LLM.

puntuación F1 es una puntuación compuesta en torno a la precisión y la recuperación y se aplica cuando los LLM se utilizan para clasificaciones o predicciones. Por ejemplo, se puede evaluar un LLM de atención al cliente en función de qué tan bien recomienda un curso de acción.
RougeL se puede utilizar para probar RAG y LLM para casos de uso de resumen, pero esto generalmente necesita un resumen creado por humanos para comparar los resultados.
maldita sea es un método utilizado originalmente para probar traducciones de idiomas que ahora se utiliza para evaluación cuantitativa de las respuestas de LLMjunto con otros métodos como TER, ChrF y BERTScore.

Algunas industrias tienen que considerar métricas de calidad y riesgo. Karthik Sj, vicepresidente de gestión de productos y marketing de aiseradice: «En educación, evaluar la idoneidad para la edad y evitar la toxicidad es crucial, pero en aplicaciones orientadas al consumidor, priorice la relevancia y la latencia de la respuesta».

Las pruebas no terminan una vez que se implementa un modelo y los científicos de datos deben buscar reacciones de los usuarios finales, métricas de rendimiento y otros comentarios para mejorar los modelos. «Después de la implementación, la integración de los resultados con el análisis del comportamiento se vuelve crucial, ya que ofrece retroalimentación rápida y una medida más clara del desempeño del modelo», dice Dustin Pearce, vicepresidente de ingeniería y CISO de Amplitud.

Un paso importante para prepararse para la producción es utilizar banderas de características En la aplicacion. Empresas de tecnología de inteligencia artificial Anthropic, Character.ai, Notion y Brex construir su producto con banderas de características probar la aplicación de forma colaborativa, introducir lentamente capacidades a grupos grandes y dirigir experimentos a diferentes segmentos de usuarios.

Si bien existen técnicas emergentes para validar las solicitudes de LLM, ninguna de ellas es fácil de implementar ni proporciona resultados definitivos. Por ahora, simplemente crear una aplicación con integraciones RAG y LLM puede ser la parte fácil en comparación con el trabajo requerido para probarla y admitir mejoras.

Enlace fuente