ChatGPT y otra IA generativa los programas escupen «alucinaciones», afirmaciones de falsedades como si fueran hechos, porque los programas no están diseñados para «saber» nada; simplemente están diseñados para producir una cadena de caracteres que es una continuación plausible de lo que acaba de escribir.
«Si hago una pregunta sobre medicina, legal o técnica, el LLM [large language model] «No tendremos esa información, especialmente si esa información es privada», dijo Edo Liberty, CEO y fundador de la startup Pinecone, en una entrevista reciente con ZDNET. «Por lo tanto, simplemente inventará algo, lo que llamamos alucinaciones».
La compañía de Liberty, un fabricante de software respaldado por capital de riesgo con cuatro años de existencia y con sede en la ciudad de Nueva York, se especializa en lo que se llama una base de datos vectorial. La compañía ha recibido 138 millones de dólares en financiación para la búsqueda de fundamentar la producción meramente plausible de GenAI en algo más autorizado, algo parecido al conocimiento real.
También: En busca de la pieza que falta en la IA generativa: datos no estructurados
«Lo correcto es, cuando tienes la consulta, el mensaje, ir y buscar la información relevante de la base de datos vectorial, ponerla en la ventana de contexto, y de repente tu consulta o tu interacción con el modelo de lenguaje es mucho». más eficaz», explicó Liberty.
Las bases de datos vectoriales son un rincón de un esfuerzo en rápida expansión llamado «generación de recuperación aumentada» o RAG, mediante el cual los LLM buscan información externa en medio de la formación de sus resultados para amplificar lo que la red neuronal puede hacer por sí sola.
De todos los enfoques RAG, la base de datos vectorial se encuentra entre aquellos con mayor experiencia tanto en investigación como en industria. Ha existido en forma cruda durante más de una década.
En sus funciones anteriores en grandes empresas de tecnología, Liberty ayudó a ser pionero en bases de datos vectoriales como un asunto oculto. Se ha desempeñado como jefe de investigación de Yahoo! y como gerente senior de investigación de la plataforma Amazon AWS SageMaker y, más tarde, jefe de Amazon AI Labs.
También: Cómo Google y OpenAI impulsaron a GPT-4 a brindar respuestas más oportunas
«Si miras las recomendaciones de compras en Amazon o la clasificación de feeds en Facebook, o las recomendaciones de anuncios, o buscas en Google, todos están trabajando detrás de escena con algo que es efectivamente una base de datos vectorial», dijo Liberty a ZDNET.
Durante muchos años, las bases de datos vectoriales fueron «todavía una especie de secreto bien guardado» incluso dentro de la comunidad de bases de datos, dijo Liberty. Estas primeras bases de datos de vectores no eran productos disponibles en el mercado. «Cada empresa tuvo que construir algo internamente para hacer esto», dijo. «Yo mismo participé en la construcción de bastantes plataformas diferentes que requieren algunas capacidades de bases de datos vectoriales».
La idea de Liberty en esos años en Amazon fue que el uso de vectores no podía simplemente incluirse dentro de una base de datos existente. «Es una arquitectura separada, es una base de datos separada, un servicio… es un nuevo tipo de base de datos», dijo.
Estaba claro, dijo, «hacia dónde iba el disco» con la IA incluso antes de ChatGPT. «Con modelos de lenguaje como BERT de Google, ese fue el primer modelo de lenguaje que comenzó a cobrar fuerza entre el desarrollador promedio», en referencia al sistema de inteligencia artificial generativa de Google, introducido en 2018, un precursor de ChatGPT.
«Cuando eso comienza a suceder, se produce una transición de fase en el mercado». Fue una transición a la que tuvo que dar el salto, dijo.
También: Bill Gates predice que pronto se producirá un «boom tecnológico masivo» gracias a la IA
«Sabía lo difícil que es y cuánto tiempo lleva construir capas de bases de datos fundamentales, y que teníamos que empezar con anticipación, porque solo teníamos un par de años antes de que miles de empresas lo utilizaran».
Cualquier base de datos se define por la forma en que se organizan los datos, como las filas y columnas de las bases de datos relacionales, y los medios de acceso, como el lenguaje de consulta estructurado de las relacionales.
En el caso de una base de datos vectorial, cada dato está representado por lo que se llama una incrustación vectorial, un grupo de números que colocan los datos en un espacio abstracto, un «espacio de incrustación», basado en la similitud. Por ejemplo, las ciudades de Londres y París están más juntas en un espacio de proximidad geográfica que cualquiera de ellas con Nueva York. Las incrustaciones de vectores son solo una forma numérica eficiente de representar la similitud relativa.
En un espacio de incrustación, cualquier tipo de datos se puede representar como más cercano o más lejano según la similitud. El texto, por ejemplo, puede considerarse como palabras cercanas, como «ocupa» y «ubicado», que están más juntas que cerca de una palabra como «fundado». Imágenes, sonidos, códigos de programas… todo tipo de cosas pueden reducirse a vectores numéricos que luego quedan integrados por su similitud.
Para acceder a la base de datos, la base de datos de vectores convierte la consulta en un vector, y ese vector se compara con los vectores de la base de datos en función de qué tan cerca está de ellos en el espacio de incrustación, lo que se conoce como «búsqueda de similitud». La coincidencia más cercana es entonces la salida, la respuesta a una consulta.
Puede ver cómo esto tiene una relevancia obvia para los motores de recomendación: dos tipos de aspiradoras pueden estar más cerca entre sí que cualquiera de un tercer tipo de aspiradora. Una consulta sobre una aspiradora podría responder a qué tan cerca está de cualquiera de las descripciones de las tres aspiradoras. Ampliar o restringir la consulta puede conducir a una búsqueda más amplia o más precisa de similitudes en todo el espacio de incrustación.
También: ¿Tienes 10 horas? IBM le capacitará en los fundamentos de la IA, de forma gratuita
Pero la búsqueda de similitudes entre incrustaciones de vectores no es en sí misma suficiente para crear una base de datos. En el mejor de los casos, es un índice simple de vectores para una recuperación muy básica.
Una base de datos vectorial, sostiene Liberty, debe tener una sistema de gestión, al igual que una base de datos relacional, algo para manejar numerosos desafíos de los que el usuario ni siquiera es consciente. Eso incluye cómo almacenar los distintos vectores en los medios de almacenamiento disponibles, cómo escalar el almacenamiento en sistemas distribuidos y cómo actualizar, agregar y eliminar vectores dentro del sistema.
«Esas son consultas muy, muy únicas y muy difíciles de hacer, y cuando se hace a escala, hay que construir el sistema para que sea altamente especializado para eso», dijo Liberty.
«Y tiene que construirse desde cero, en términos de algoritmos y estructuras de datos y todo, y tiene que ser nativo de la nube; de lo contrario, honestamente, no se pueden obtener las compensaciones de costo, escala y rendimiento». que lo hagan factible y razonable en producción”.
Hacer coincidir consultas con vectores almacenados en una base de datos obviamente encaja bien con modelos de lenguaje grandes como GPT-4. Su función principal es hacer coincidir una consulta en forma vectorial con sus datos de entrenamiento acumulados, resumidos como vectores, y con lo que usted ha escrito previamente, también representado como vectores.
«La forma en que los LLM [large language models] acceden a los datos, en realidad acceden a los datos con el propio vector», explicó Liberty. «No son metadatos, no es un campo agregado que es la forma principal en que se representa la información».
Por ejemplo, «Si quieres decir, dame todo lo que se parece a esto, y veo una imagen; tal vez recorto una cara y digo, está bien, busco a todos los que se ven así de la base de datos, de todas mis imágenes». «, explicó Libertad.
«O si es audio, algo que suena así, o si es texto, es algo relevante de este documento». Ese tipo de consultas combinadas pueden ser una cuestión de diferentes búsquedas de similitud en diferentes espacios de incrustación de vectores. Esto podría ser particularmente útil para el futuro multimodal que llega a GenAI. como ha relatado ZDNET.
El objetivo, una vez más, es reducir las alucinaciones.
También: 8 formas de reducir las alucinaciones de ChatGPT
«Supongamos que está creando una aplicación para soporte técnico: el LLM podría haber sido capacitado en algunos productos aleatorios, pero no su producto, y definitivamente no tendrá la nueva versión que está próxima, la documentación que aún no es pública». Como consecuencia, «simplemente inventará algo». En cambio, con una base de datos vectorial, un mensaje relacionado con el nuevo producto se combinará con esa información en particular.
Se están explorando otras vías prometedoras en el esfuerzo general del GAR. Los científicos de IA, conscientes de las limitaciones de los grandes modelos lingüísticos, han estado intentando aproximarse a lo que puede hacer una base de datos. Numerosos actores, incluido Microsoft, han experimentado con conectar directamente a los LLM algo así como una memoria primitiva, como ZDNET. ha informado anteriormente.
Al expandir la «ventana contextual», el término para la cantidad de cosas que se escribieron previamente en el mensaje de un programa como ChatGPT, se puede recuperar más con cada turno de una sesión de chat.
También: Microsoft y TikTok dan a la IA generativa una especie de memoria
Ese enfoque sólo puede llegar hasta cierto punto, dijo Liberty a ZDNET. «Esa ventana de contexto podría contener o no la información necesaria para producir realmente la respuesta correcta», dijo, y en la práctica, argumenta, «es casi seguro que no la tendrá».
«Si haces una pregunta sobre medicina, no vas a poner en la ventana de contexto todo el conocimiento de la medicina», señaló. En el peor de los casos, ese «relleno de contexto», como se le llama, en realidad puede exacerbar las alucinaciones, dijo Liberty, «porque estás añadiendo ruido».
Por supuesto, otros proveedores de software y herramientas de bases de datos han visto las virtudes de buscar similitudes entre vectores y están agregando capacidades a sus productos existentes. Eso incluye MongdoDB, uno de los sistemas de bases de datos no relacionales más populares, que ha agregado «búsqueda vectorial» a su plataforma de base de datos administrada en la nube Atlas. También incluye al proveedor de bases de datos pequeñas Couchbase.
«No funcionan», dijo Liberty sobre los esfuerzos del yo también, «porque ni siquiera cuentan con los mecanismos adecuados».
Según él, los medios de acceso de otros sistemas de bases de datos no pueden vincularse a la búsqueda por similitud de vectores. Liberty ofreció un ejemplo de retirada. «Si te pregunto cuál es la entrevista más reciente que has realizado, lo que sucede en tu cerebro no es una consulta SQL», dijo, refiriéndose al lenguaje de recuperación estructurado de las bases de datos relacionales.
También: IA en 2023: un año de avances que no dejaron ninguna cosa humana sin cambios
«Tienes connotaciones, puedes obtener información relevante por contexto; eso de manera similar o por analogía es algo que las bases de datos vectoriales pueden hacer debido a la forma en que representan datos» que otras bases de datos no pueden hacer debido a su estructura.
«Estamos altamente especializados para realizar búsquedas vectoriales extremadamente bien, y estamos construidos desde cero, desde algoritmos hasta estructuras de datos, diseño de datos y planificación de consultas, hasta la arquitectura en la nube, para hacerlo extremadamente bien».
Lo que MongoDB, Couchbase y el resto, dijo, «están tratando de hacer, y, en cierto sentido, con éxito, es enturbiar las aguas sobre lo que es una base de datos vectorial», dijo. «Saben que, a escala, cuando se trata de crear aplicaciones del mundo real con bases de datos vectoriales, no habrá competencia».
El impulso lo tiene Pinecone, sostiene Liberty, en virtud de haber perseguido su idea original con gran concentración.
«Hoy en día tenemos miles de empresas que utilizan nuestro producto», dijo Liberty, «cientos de miles de desarrolladores han creado cosas en Pinecone, nuestros clientes se descargan millones de veces y se utilizan en todas partes». Pinecone está «clasificada como número uno por Dios sabe cuántas encuestas diferentes».
En el futuro, dijo Liberty, los próximos años para Pinecone se dedicarán a construir un sistema que se acerque más a lo que realmente significa el conocimiento.
También: La promesa y el peligro de la IA en funcionamiento en 2024
«Creo que la pregunta interesante es ¿cómo representamos el conocimiento?» dijo Liberty a ZDNET. «Si tienes un sistema de IA que necesita ser verdaderamente inteligente, necesita saber cosas».
El camino para representar el conocimiento para la IA, afirmó Liberty, es definitivamente una base de datos vectorial. «Pero esa no es la respuesta final», dijo. «Esa es la parte inicial de la respuesta». Hay otros «dos, tres, cinco, diez años de inversión en tecnología para hacer que esos sistemas se integren mejor entre sí para representar datos con mayor precisión», dijo.
«Tenemos una enorme hoja de ruta por delante para hacer del conocimiento una parte integral de cada aplicación».