Para empezar, no todos los RAG son del mismo calibre. La precisión del contenido de la base de datos personalizada es fundamental para obtener resultados sólidos, pero esa no es la única variable. «No se trata sólo de la calidad del contenido en sí», dice Joel Hron, director global de IA en Thomson Reuters. «Es la calidad de la búsqueda y la recuperación del contenido correcto según la pregunta». Dominar cada paso del proceso es fundamental, ya que un paso en falso puede desequilibrar el modelo por completo.
«Cualquier abogado que haya intentado alguna vez utilizar una búsqueda en lenguaje natural dentro de uno de los motores de investigación verá que a menudo hay casos en los que la similitud semántica conduce a materiales completamente irrelevantes», dice Daniel Ho, profesor de Stanford y miembro principal del Instituto de IA centrada en el ser humano. La investigación de Ho sobre Herramientas legales de IA que dependen de RAG encontraron una mayor tasa de errores en los resultados que las empresas que construyeron los modelos encontrados.
Lo que nos lleva a la pregunta más espinosa de la discusión: ¿cómo se definen las alucinaciones dentro de una implementación RAG? ¿Es solo cuando el chatbot genera un resultado sin citas e inventa información? ¿Lo es también cuando la herramienta puede pasar por alto datos relevantes o malinterpretar aspectos de una cita?
Según Lewis, las alucinaciones en un sistema RAG se reducen a si el resultado es consistente con lo encontrado por el modelo durante la recuperación de datos. Sin embargo, la investigación de Stanford sobre herramientas de inteligencia artificial para abogados amplía un poco esta definición al examinar si el resultado se basa en los datos proporcionados y si es objetivamente correcto; listón alto para profesionales del derecho quienes a menudo analizan casos complicados y navegan por complejas jerarquías de precedentes.
Si bien un sistema RAG en sintonía con las cuestiones legales es claramente mejor para responder preguntas sobre jurisprudencia que ChatGPT de OpenAI o Gemini de Google, aún puede pasar por alto los detalles más finos y cometer errores aleatorios. Todos los expertos en IA con los que hablé enfatizaron la necesidad continua de una interacción humana reflexiva durante todo el proceso para verificar las citas y verificar la precisión general de los resultados.
El derecho es un área donde hay mucha actividad en torno a las herramientas de inteligencia artificial basadas en RAG, pero el potencial del proceso no se limita a un solo trabajo administrativo. “Tomemos cualquier profesión o cualquier negocio. Es necesario obtener respuestas que estén ancladas en documentos reales”, afirma Arredondo. «Por lo tanto, creo que RAG se convertirá en el elemento básico que se utilizará básicamente en todas las aplicaciones profesionales, al menos a corto y mediano plazo». Los ejecutivos reacios al riesgo parecen entusiasmados con la perspectiva de utilizar herramientas de inteligencia artificial para comprender mejor sus datos patentados, sin tener que cargar información confidencial en un chatbot público estándar.
Sin embargo, es fundamental que los usuarios comprendan las limitaciones de estas herramientas y que las empresas centradas en la IA se abstengan de prometer demasiado sobre la precisión de sus respuestas. Cualquiera que utilice una herramienta de inteligencia artificial debe evitar confiar por completo en el resultado y debe abordar sus respuestas con un saludable sentido de escepticismo, incluso si la respuesta se mejora a través de RAG.
«Las alucinaciones llegaron para quedarse», dice Ho. «Todavía no tenemos métodos listos para eliminar realmente las alucinaciones». Incluso cuando RAG reduce la prevalencia de errores, el juicio humano prevalece. Y eso no es mentira.