Cómo GenAI mejoró mucho en cuestiones médicas, gracias a RAG

Sistema-almanaque-de-stanrford-2024-para-trapos-médicos — Los académicos de Stanford construyeron un sistema, llamado Almanac, que recuperará información médica en tiempo real en respuesta a un mensaje de Gen AI, y descubrieron que mejoraba las respuestas a las preguntas médicas escritas por los médicos.

Universidad Stanford

Este es el año en el que muchos partidos utilizan inteligencia artificial generativa Intentaremos dar a los programas algo parecido al conocimiento. En su mayoría lo harán utilizando un esfuerzo en rápida expansión llamado «generación de recuperación aumentada» o RAG, mediante el cual los grandes modelos de lenguaje (LLM) buscan información externa (al mismo tiempo que forman sus resultados) para amplificar lo que la red neuronal puede hacer por sí sola. propio.

RAG puede mejorar los conocimientos médicos de los LLM, por ejemplo, según un informe de la Universidad de Stanford y sus colaboradores publicado esta semana en NEJM AIuna nueva revista publicada por el prestigioso New England Journal of Medicine.

También: MedPerf tiene como objetivo acelerar la IA médica manteniendo la privacidad de los datos

Las versiones mejoradas con RAG de GPT-4 y otros programas «mostraron una mejora significativa en el rendimiento en comparación con los LLM estándar» al responder preguntas novedosas escritas por médicos certificados, informa el autor principal Cyril Zakka y sus colegas.

Los autores sostienen que RAG es un elemento clave para el despliegue seguro de Gen AI en la clínica. Incluso los programas creados expresamente para el conocimiento médico, con capacitación sobre datos médicos, no alcanzan ese objetivo, sostienen.

Programas como el de Google DeepMind MedPaLM, un LLM que está diseñado para responder preguntas de una variedad de conjuntos de datos médicos, escriben los autores, todavía sufre de alucinaciones. Además, sus respuestas «no reflejan con precisión tareas clínicamente relevantes».

RAG es importante porque la alternativa es volver a capacitar constantemente a los LLM para mantenerse al día con los cambios en el conocimiento médico, una tarea «que rápidamente puede volverse prohibitivamente costosa en tamaños de mil millones de parámetros» de los programas, sostienen.

El estudio abre nuevos caminos en un par de maneras. Primero, construye un nuevo enfoque, llamado Almanaque, para recuperar información médica. El programa Almanac recupera datos de antecedentes médicos utilizando metadatos de una base de datos de referencia médica de 14 años de antigüedad compilada por médicos llamada MDCalc.

En segundo lugar, Zakka y sus colegas compilaron un nuevo conjunto de 314 preguntas médicas, llamado ClinicalQA, «que abarca varias especialidades médicas con temas que van desde pautas de tratamiento hasta cálculos clínicos». Las preguntas fueron escritas por ocho médicos certificados y dos médicos encargados de escribir «tantas preguntas como sea posible en su campo de especialización relacionadas con sus deberes clínicos diarios».

También: MedPaLM de Google enfatiza a los médicos humanos en la IA médica

El objetivo de un nuevo conjunto de preguntas es evitar el fenómeno en el que programas entrenados en bases de datos médicas han copiado fragmentos de información que luego aparecen en pruebas médicas como MedQA, como memorizar las respuestas de una prueba. Como lo expresaron Zakka y su equipo, «los conjuntos de datos destinados a la evaluación del modelo pueden terminar en los datos de entrenamiento, lo que dificulta la evaluación objetiva de los modelos utilizando los mismos puntos de referencia».

Las preguntas de ClinicalQA también son más realistas porque están escritas por profesionales médicos, sostiene el equipo. «Las preguntas al estilo del examen de licencia médica de EE. UU. no logran resumir el alcance completo de los escenarios clínicos reales que enfrentan los profesionales médicos», escriben. «A menudo retratan los escenarios de los pacientes como viñetas clínicas claras, evitando la intrincada serie de microdecisiones que constituyen la atención real al paciente».

El estudio presentó una prueba de lo que en IA se conoce como tareas de «tiro cero», donde se utiliza un modelo de lenguaje sin modificaciones y sin ejemplos de respuestas correctas e incorrectas. Es un enfoque que se supone que prueba lo que se llama «aprendizaje en contexto», la capacidad de un modelo de lenguaje para adquirir nuevas capacidades que no estaban en sus datos de entrenamiento.

También: 20 cosas a considerar antes de implementar un chatbot de IA para sus clientes

Almanac opera conectando el GPT-4 de OpenAI a un programa llamado Navegador que accede a fuentes basadas en la Web para realizar la operación RAG, según las pautas de los metadatos de MDCalc.

Una vez que se encuentra una coincidencia con la pregunta en los datos médicos, un segundo programa de Almanaque llamado Retriever pasa el resultado a GPT-4, que lo convierte en una respuesta en lenguaje natural a la pregunta.

Las respuestas de Almanac usando GPT-4 se compararon con las respuestas del ChatGPT-4 simple, Bing de Microsoft y Bard de Google, sin modificaciones en esos programas, como punto de referencia.

Todas las respuestas son clasificadas por los médicos humanos según su factibilidad, su integridad, su «preferencia» (es decir, cuán deseables fueron las respuestas en relación con la pregunta) y su seguridad con respecto a los intentos «adversarios» de desestimar los programas. Para probar la resistencia al ataque, los autores insertaron texto engañoso en 25 de las preguntas diseñadas para convencer al programa de «generar resultados incorrectos o escenarios más avanzados diseñados para eludir las salvaguardas artificiales».

También: La pionera de la IA, Daphne Koller, cree que la IA generativa conducirá a avances contra el cáncer

Los jueces humanos no sabían qué programa presentaba qué respuesta, señala el estudio, para evitar que expresaran prejuicios hacia algún programa en particular.

Almanac, relatan, superó a los otros tres, con puntuaciones promedio de factibilidad, integridad y preferencia del 67%, 70% y 70%, respectivamente, sobre 100. Eso se compara con respuestas con puntuaciones de entre 30% y 50% para el otros tres.

Los programas también tenían que incluir una cita de dónde se extrajeron los datos, y los resultados son reveladores: Alamanc obtuvo una puntuación mucho más alta, con un 91% de citas correctas. Los otros tres parecían tener errores fundamentales.

«Bing logró un rendimiento del 82% debido a fuentes no confiables, incluidos blogs personales y foros en línea», escriben Zakka y su equipo. «Aunque las citas de ChatGPT-4 estaban plagadas en su mayoría de páginas web inexistentes o no relacionadas, Bard confió en su conocimiento intrínseco o se negó a citar fuentes, a pesar de que se le pidió que lo hiciera».

Para resistir las indicaciones contradictorias, descubrieron que Almanac «reemplazó en gran medida» a los demás, respondiendo 100% correctamente, aunque a veces lo hizo negándose a dar una respuesta.

También: La IA está superando a nuestra mejor tecnología de pronóstico del tiempo

Nuevamente hubo idiosincrasias. Bard de Google a menudo daba tanto una respuesta correcta como una respuesta falsa provocada por el mensaje del adversario. ChatGPT-4 fue el peor por un amplio margen, acertando solo el 7% de las preguntas en el entorno adversario, básicamente porque respondería con información incorrecta en lugar de abstenerse por completo.

Los autores señalan que hay mucho trabajo para «optimizar» y «afinar» Almanac. El programa «tiene limitaciones a la hora de clasificar eficazmente las fuentes de información según criterios, como el nivel de evidencia, el tipo de estudio y la fecha de publicación». Además, confiar en un puñado de jueces humanos no escala, señalan, por lo que un proyecto futuro debería buscar automatizar las evaluaciones.

Enlace fuente