Por qué los modelos de IA generativa de código abierto todavía están un paso por detrás de GPT-4

riñones humanos iluminados en azul — mina mágica/Getty Images

Uno de los debates más candentes en inteligencia artificial generativa (IA) es código abierto versus código cerrado: ¿cuál resultará más valioso?

Por un lado, una plétora de modelos de lenguaje grande de código abierto (LLM) son producidos constantemente por una constelación de contribuyentes en constante evolución, liderados por el modelo de código abierto más prestigioso hasta la fecha, Meta’s. Llama 2. Los LLM de código cerrado representan los dos programas comerciales mejor establecidos, GPT-4 de OpenAI y el modelo de lenguaje de la startup Anthropic, respaldada por empresas, que se conoce como claudio 2.

También: Estoy tomando cursos de imágenes de IA gratis en Udemy con este pequeño truco, y tú también puedes hacerlo.

Una forma de comparar estos programas entre sí es ver qué tan bien funcionan respondiendo preguntas sobre un área específica, como, por ejemplo, conocimientos médicos.

Sobre esa base, Llama 2 es terrible a la hora de responder preguntas en el área de nefrología, la ciencia de los riñones, según un estudio reciente realizado por científicos de la Universidad Pepperdine, la Universidad de California en Los Ángeles y la UC Riverside, que fue publicado publicado esta semana en NEJM AIuna nueva revista publicada por el prestigioso New England Journal of Medicine.

También: Los mejores chatbots con IA: ChatGPT y otras alternativas destacadas

«En comparación con GPT-4 y Claude 2, los modelos de código abierto tuvieron un desempeño deficiente en términos de respuestas correctas totales y la calidad de sus explicaciones», escriben el autor principal, Sean Wu, del Keck Data Science Institute de Pepperdine, y sus colegas.

nejm-testing-llms-sobre-conocimientos-médicos — Los académicos de la Universidad Pepperdine convirtieron preguntas de nefrología en indicaciones para alimentar una serie de grandes modelos de lenguaje, incluidos Llama 2 y GPT-4.

Revista de medicina de Nueva Inglaterra

«GPT-4 funcionó excepcionalmente bien y logró un desempeño similar al de un humano en la mayoría de los temas», escriben, logrando una puntuación del 73,3%, justo por debajo del 75% que es una calificación aprobatoria para un humano que tiene que responder varias veces. preguntas de nefrología de elección.

«La mayoría de los LLM de código abierto lograron una puntuación general que no difería de lo que se esperaría si las preguntas se respondieran al azar», escriben, y Llama 2 obtuvo el mejor resultado entre cinco modelos de código abierto, incluidos Vicuña y Halcón. El programa Llama 2 quedó justo por encima del nivel de adivinanzas aleatorias (23,8%) con una puntuación del 30,6%.

También: Cinco formas de utilizar la IA de forma responsable

El estudio fue una prueba de lo que en IA se conoce como tareas de «tiro cero», donde se utiliza un modelo de lenguaje sin modificaciones y sin ejemplos de respuestas correctas e incorrectas. Zero-shot es un enfoque que se supone que prueba el «aprendizaje en contexto», que es la capacidad de un modelo de lenguaje para adquirir nuevas capacidades que no estaban en sus datos de entrenamiento.

En la prueba, los modelos (Llama 2 y otros cuatro programas de código abierto, además de dos programas comerciales) recibieron cada uno 858 preguntas de nefrología de NephSAPel Programa de Autoevaluación de Nefrología, una publicación de la Sociedad Estadounidense de Nefrología utilizada por los médicos para el autoestudio en el campo.

También: El generador de imágenes con IA de Google finalmente se lanza al público: cómo probarlo

Los autores tuvieron que realizar una importante preparación de datos para convertir los archivos de texto plano de NephSAP en mensajes que pudieran introducirse en los modelos de lenguaje. Cada mensaje contenía la pregunta en lenguaje natural y las respuestas de opción múltiple. (El conjunto de datos es publicado para que otros lo usen en HuggingFace.)

Y debido a que GPT-4 y Llama 2 y los demás producen textos extensos como respuestas en muchos casos, los autores también tuvieron que desarrollar técnicas automáticas para analizar las respuestas de cada modelo para cada pregunta y luego comparar las respuestas del modelo con las correctas. respuestas para calificar automáticamente los resultados.

Hay muchas razones potenciales por las que los modelos de código abierto funcionan mal en comparación con GPT-4, pero los autores sospechan que una razón importante es que Anthropic y OpenAI han incorporado datos médicos patentados como parte del entrenamiento de sus programas.

«GPT-4 y Claude 2 fueron entrenados no sólo con datos disponibles públicamente sino también con datos de terceros», escriben.

«Los datos de alta calidad para la formación de LLM en el campo médico a menudo residen en materiales no públicos que han sido seleccionados y revisados por pares, como libros de texto, artículos publicados y conjuntos de datos seleccionados», señalan Wu y su equipo. «Sin negar la importancia del poder computacional de LLM específicos, la capacidad de acceder a material de datos de capacitación médica que actualmente no es de dominio público probablemente seguirá siendo un factor clave que determina si el desempeño de LLM específicos mejorará en el futuro».

También: MedPerf tiene como objetivo acelerar la IA médica manteniendo la privacidad de los datos

Claramente, con GPT-4 obteniendo dos puntos por debajo de la calificación aprobatoria humana, hay un gran margen de mejora para todos los modelos de lenguaje, no solo de código abierto.

Afortunadamente para los partidarios del código abierto, se están realizando esfuerzos que podrían ayudar a igualar las probabilidades en términos de datos de entrenamiento.

Uno de estos esfuerzos es el amplio movimiento hacia lo que se llama capacitación federada, donde los modelos de lenguaje se entrenan localmente con datos privados, pero luego contribuyen con los resultados de esa capacitación a un esfuerzo agregado en la nube pública.

Ese enfoque puede ser una forma de cerrar la brecha entre las fuentes de datos confidenciales en medicina y el impulso colectivo para fortalecer los modelos básicos de código abierto. Una iniciativa destacada en ese ámbito es la Esfuerzo MedPerf del consorcio industrial ML Commons, que comenzó el año pasado.

También es posible que algunos modelos comerciales se conviertan en programas de código abierto que hereden competencias médicas específicas de los padres. Por ejemplo, Google DeepMind MedPaLM es un LLM que está diseñado para responder preguntas de una variedad de conjuntos de datos médicos, incluido uno nuevo inventado por Google que representa las preguntas que los consumidores hacen sobre la salud en Internet.

También: MedPaLM de Google enfatiza a los médicos humanos en la IA médica

Incluso sin capacitar un programa sobre conocimientos médicos, el resultado se puede mejorar con la «generación de recuperación aumentada», que es un enfoque en el que los LLM buscan información externa mientras forman sus resultados para amplificar lo que la red neuronal puede hacer por sí sola.

Independientemente de qué enfoque gane, la naturaleza abierta de Llama 2 y los otros modelos brinda a muchas partes la oportunidad de mejorar los programas, a diferencia de los programas comerciales como GPT-4 y Claude 2, cuyas operaciones quedan a discreción exclusiva de sus empresas. propietarios.

Enlace fuente