Tres tecnologías que ayudarán a la IA generativa en 2024

como el trascendental primer año de ChatGPT llega a su fin, está claro que IA generativa (genAI) y grandes modelos de lenguaje (LLM) son tecnologías interesantes. Pero, ¿están preparados para su uso empresarial en horario de máxima audiencia?

Hay desafíos bien comprendidos con ChatGPT, donde sus respuestas tienen poca precisión. A pesar de estar basado en sofisticados modelos informáticos del conocimiento humano como GPT-4ChatGPT rara vez quiere admitir su ignorancia, un fenómeno conocido como Alucinaciones de IAy a menudo tiene dificultades con el razonamiento lógico. Por supuesto, esto se debe a que ChatGPT no razona—Funciona como un sistema avanzado de autocompletar texto.

Esto puede resultar difícil de aceptar para los usuarios. Después de todo, GPT-4 es un sistema impresionante: puede realizar un examen de abogacía simulado y aprobarlo con una puntuación entre el 10% superior de los participantes. La perspectiva de emplear un sistema tan inteligente para interrogar las bases de conocimiento corporativo es sin duda atractiva. Pero debemos protegernos tanto de su exceso de confianza como de su estupidez.

Para combatirlos, han surgido tres nuevos y poderosos enfoques que pueden ofrecer una manera de mejorar la confiabilidad. Si bien estos enfoques pueden diferir en su énfasis, comparten un concepto fundamental: tratar el LLM como una «caja cerrada». En otras palabras, la atención no se centra necesariamente en perfeccionar el LLM en sí (aunque los ingenieros de IA continúan mejorando sus modelos considerablemente), sino en desarrollar una capa de verificación de hechos para respaldarlo. Esta capa tiene como objetivo filtrar respuestas inexactas e infundir al sistema un «sentido común».

Miremos cada uno por separado y veamos cómo.

Una capacidad de búsqueda más amplia

Uno de estos enfoques implica la adopción generalizada de búsqueda vectorial. Esta es ahora una característica común de muchas bases de datos, incluidas algunas bases de datos especializadas únicamente en vectores.

Una base de datos vectorial está destinada a poder indexar datos no estructurados como texto o imágenes, colocándolos en un espacio de alta dimensión para su búsqueda, recuperación y cercanía. Por ejemplo, al buscar el término “manzana” se puede encontrar información sobre una fruta, pero cerca en el “espacio vectorial” puede haber resultados sobre una empresa de tecnología o un sello discográfico.

Los vectores son un pegamento útil para la IA porque podemos usarlos para correlacionar puntos de datos entre componentes como bases de datos y LLM, y no solo usarlos como claves en una base de datos para entrenar modelos de aprendizaje automático.

De pobre a rico

Generación de recuperación aumentada, o RAG, es un método común para agregar contexto a una interacción con un LLM. Debajo del capó, RAG recupera contenido complementario de un sistema de base de datos para contextualizar una respuesta de un LLM. Los datos contextuales pueden incluir metadatos, como marca de tiempo, geolocalización, referencia e identificación del producto, pero en teoría podrían ser el resultado de consultas arbitrariamente sofisticadas a bases de datos.

Esta información contextual sirve para ayudar al sistema general a generar respuestas relevantes y precisas. La esencia de este enfoque radica en obtener la información más precisa y actualizada disponible sobre un tema determinado en una base de datos, refinando así las respuestas del modelo. Un subproducto útil de este enfoque es que, a diferencia del opaco funcionamiento interno de GPT-4, si RAG forma la base del LLM empresarial, el usuario empresarial obtiene una visión más transparente de cómo el sistema llegó a la respuesta presentada.

Si la base de datos subyacente tiene capacidades vectoriales, entonces la respuesta del LLM, que incluye vectores integrados, se puede utilizar para encontrar datos pertinentes de la base de datos para mejorar la precisión de la respuesta.

El poder de un gráfico de conocimiento

Sin embargo, incluso la función de búsqueda más avanzada impulsada por RAG, impulsada por vectores, sería insuficiente para garantizar la confiabilidad crítica de ChatGPT para la empresa. Los vectores por sí solos son simplemente una forma de catalogar datos, por ejemplo, y ciertamente no son los modelos de datos más ricos.

En cambio, gráficos de conocimiento han ganado una tracción significativa como la base de datos elegida por RAG. Un gráfico de conocimiento es una red semánticamente rica de información interconectada, que reúne información de muchas dimensiones en una única estructura de datos (muy parecido a lo que ha hecho la web con los humanos). Debido a que un gráfico de conocimiento contiene contenido transparente y curado, se puede garantizar su calidad.

También podemos unir el LLM y el gráfico de conocimiento utilizando vectores. Pero en este caso, una vez que el vector se resuelve en un nodo en el gráfico de conocimiento, la topología del gráfico se puede utilizar para realizar verificación de hechos, búsquedas de cercanía y coincidencia de patrones generales para garantizar que lo que se devuelve al usuario sea exacto.

Esta no es la única forma en que se utilizan los gráficos de conocimiento. Un investigador de IA llamado profesor Yejin Choi está explorando un concepto interesante en la Universidad de Washington, quien Bill Gates entrevistado recientemente. La profesora Choi y su equipo han creado una base de conocimientos creada por máquinas que ayuda al LLM a separar los conocimientos buenos de los malos haciendo preguntas y luego añadiendo (como reglas) respuestas que coincidan consistentemente.

El trabajo de Choi utiliza una IA llamada «crítica» que prueba el razonamiento lógico de un LLM para construir un gráfico de conocimiento que consta únicamente de buen razonamiento y buenos hechos. Un claro ejemplo de razonamiento deficiente es evidente si se pregunta a ChatGPT (3.5) cuánto tiempo tardarían en secar cinco camisas al sol si se necesita una hora para secar una camisa. Si bien el sentido común dicta que si se necesita una hora para secar una camisa, igualmente tomaría una hora independientemente de la cantidad, la IA intentó hacer cálculos complicados para resolver el problema, justificando su enfoque mostrando su (incorrecto) funcionamiento.

Si bien los ingenieros de inteligencia artificial trabajan duro para resolver estos problemas (y ChatGPT 4 no falla aquí), el enfoque de Choi para destilar un gráfico de conocimiento ofrece una solución de propósito general. Es particularmente apropiado que este gráfico de conocimiento se utilice luego para entrenar un LLM, que tiene una precisión mucho mayor a pesar de ser más pequeño.

Recuperando el contexto

Hemos visto que los gráficos de conocimiento mejoran los sistemas GPT al proporcionar más contexto y estructura a través de RAG. También hemos visto aumentar la evidencia de que al usar una combinación de métodos basados en vectores y búsqueda semántica basada en gráficos (sinónimo de gráficos de conocimiento), las organizaciones logran resultados consistentemente de alta precisión.

Al incorporar una arquitectura que aprovecha una combinación de vectores, RAG y un gráfico de conocimiento para admitir un modelo de lenguaje grande, podemos construir aplicaciones comerciales de gran valor sin requerir experiencia en los complejos procesos de creación, capacitación y ajuste de un LLM.

Es una síntesis que significa que podemos agregar una comprensión rica y contextual de un concepto con la «comprensión» más fundamental que una computadora (LLM) puede lograr. Es evidente que las empresas pueden beneficiarse de este enfoque. Donde los gráficos tienen éxito es en responder las grandes preguntas: ¿Qué es importante en los datos? ¿Qué es inusual? Lo más importante es que, dados los patrones de los datos, los gráficos pueden predecir lo que sucederá a continuación.

Esta destreza fáctica, junto con el elemento generativo de los LLM, es convincente y tiene una amplia aplicabilidad. A medida que nos adentramos en 2024, predigo que veremos una aceptación generalizada de esta poderosa forma de convertir los LLM en herramientas comerciales de misión crítica.

Jim Webber es científico jefe en base de datos gráfica y líder en análisis neo4j. Él es coautor de Bases de datos de gráficos (1ª y 2ª ediciones, O’Reilly), Bases de datos gráficas para principiantes (Wiley), y Construyendo gráficos de conocimiento (O’Reilly).

—

Generative AI Insights proporciona un lugar para que los líderes tecnológicos, incluidos proveedores y otros contribuyentes externos, exploren y discutan los desafíos y oportunidades de la inteligencia artificial generativa. La selección es amplia, desde análisis profundos de tecnología hasta estudios de casos y opiniones de expertos, pero también subjetiva, basada en nuestro juicio sobre qué temas y tratamientos servirán mejor a la audiencia técnicamente sofisticada de InfoWorld. InfoWorld no acepta garantías de marketing para su publicación y se reserva el derecho de editar todo el contenido aportado. Contacto doug_dineley@foundryco.com.

Enlace fuente