Deja de lado a Gemini, la IA de código abierto tiene sus propios trucos de vídeo

El sitio web de Google Gemini en una computadora portátil dice: Bienvenido a la era Gemini — María Díaz/ZDNET

Google deslumbró al mundo con su demo este mes de su versión más puntera inteligencia artificial generativa (IA) programa, Géminis 1.5, una continuación del primer programa Gemini, que se lanzó en diciembre pasado. Entre otras hazañas, Gemini 1.5 sobresale en cosas como el desafío «aguja en un pajar», donde el programa debe identificar un fotograma de vídeo que coincida con una descripción de texto.

Sin embargo, el programa de Google, como la mayoría de los programas de inteligencia artificial de las entidades comerciales más grandes, contiene pocos detalles técnicos sobre cómo funciona el software. El Informe técnico de 58 páginas. que Google publicó sobre Gemini 1.5 sólo contiene descripciones generales del programa y el enfoque utilizado, sin detallar la arquitectura de la que se compone Gemini 1.5. Y, por supuesto, el código no está disponible.

También: Conozca Gemini 1.5, el modelo de IA más nuevo de Google con importantes actualizaciones respecto a su predecesor

En ese sentido, Gemini 1.5 continúa una tendencia reciente de Google, OpenAI y otras empresas comerciales: ofuscar los detalles técnicos de la IA.

Ese tipo de secreto presenta una oportunidad para el software de código abierto que puede igualar algunas de las capacidades de Gemini y al mismo tiempo abrir el acceso a su código.

En un trabajo publicado este mes por Hao Liu, Wilson Yan, Matei Zaharia y Pieter Abbeel de la Universidad de California en Berkeley, y descrito en el sitio GitHub del proyectolos científicos se adaptan Modelo de lenguaje grande Llama 2 de código abierto de Meta crear un programa multimodal que, como Gemini 1.5, pueda procesar no sólo texto sino también vídeo e imágenes, aunque no audio (a diferencia de Gemini 1.5).

También: GPT-4 se está volviendo significativamente más tonto con el tiempo, según un estudio

Utilizando la versión principal de Llama 2, una red neuronal no particularmente grande de 7 mil millones de parámetros, los autores pudieron manejar entradas de hasta un millón de «tokens», que es el texto, imagen o video introducido en el programa. Este número representa un aumento dramático con respecto a los 128.000 manejados por la versión Gemini 1.0 y el GPT-4 Turbo de OpenAI.

Su creación, conocida como Large World Model (LWM), realiza tareas similares a las de Gemini 1.5. Puede resolver un problema del tipo de una aguja en un pajar, como responder a la pregunta: «¿Qué color de chaqueta llevaba la chica en el trampolín?», cuando se le muestra un vídeo de YouTube de una hora de duración:

lwm-video-prueba-de-aguja-en-pajar- — El modelo de mundo grande de UC Berkeley puede responder una pregunta de «aguja en el pajar» sobre un momento particular en video mejor que el Gemini 1.0 de Google o el GPT-4 Turbo de OpenAI.

UC Berkeley

Liu y su equipo aún no han mostrado cómo se comparan sus resultados con Gemini 1.5. En cambio, el equipo muestra comparaciones con GPT-4 y Gemini 1.0.

Como se muestra en la ilustración anterior, LWM responde correctamente a la pregunta de la aguja en el pajar, mientras que las otras dos fallan.

LWM puede mantener charlas sobre lo que sucede en un videoclip y dar largas discusiones sobre el contenido de las imágenes, que es un proceso que los investigadores llaman «chat de imágenes». LWM también puede generar imágenes y vídeos cuando se le proporcionan descripciones de texto en el mensaje (consulte ambos ejemplos a continuación):

berkeley-2024-lwm-video-chat — UC Berkeley

berkeley-2024-lwm-imagen-chat — UC Berkeley

Sorprendentemente, parece posible que Liu y su equipo pudieran lograr resultados equivalentes a Gemini 1.0 con menos potencia informática. El LWM se entrenó en una porción de un «POD» de TPU versión 4, que consta de 256 chips de TPU, con dos núcleos cada uno, durante 58 horas. En el caso de Géminis 1.0, el informe técnico, al igual que el informe técnico de 1.5, contiene pocos detalles técnicos sobre la infraestructura para la formación. Todo lo que sabemos es que Google usó una cierta cantidad de POD TPU Versión 4 y Versión 5 durante un cierto período de tiempo. Es muy posible que hayan utilizado una cantidad mucho mayor de computación que la que utilizaron Liu y su equipo para entrenar LWM.

Entonces, ¿cómo es posible que LWM, que se basa sólo en un programa relativamente pequeño de código abierto y que funciona con menos potencia informática, pueda lograr resultados similares a los de Gemini 1.0? Bueno, LWM es el producto de un tipo diferente de enfoque al problema de cómo desarrollar una red neuronal.

Ambos modelos parten del uso de un tipo similar de red neuronal, un Transformer. Google agregó «innovaciones en algoritmos de entrenamiento, conjuntos de datos e infraestructura» al Transformer.

También: Cómo Google y OpenAI impulsaron a GPT-4 a brindar respuestas más oportunas

En el caso de LWM, Liu y su equipo entrenaron el modelo en múltiples rondas sucesivas, con «ventanas de contexto» cada vez más grandes, que es la cantidad de muestras de datos con las que trabaja el programa en cada pasada. El equipo comenzó con 32,768 tokens en las ventanas de contexto, que pueden considerarse como múltiples datos. Luego trabajaron hasta un millón de tokens.

Ese enfoque se llama «Ring Attention», y Fue desarrollado el año pasado por Liu y su equipo.. La idea de Ring Attention es que se puede entrenar una red neuronal con muestras de datos de forma simultánea, en lugar de secuencial, para paralelizar el entrenamiento, lo que significa hacer más cosas en menos tiempo y utilizar los chips de manera más eficiente.

berkeley-2024-lwm-arquitectura — UC Berkeley

«Adoptamos un enfoque de formación […] donde nuestro modelo se entrena en longitudes de secuencia progresivamente más largas, comenzando con 32 000 tokens y terminando en 1 millón de tokens en potencias crecientes de dos», escriben Liu y su equipo.

«Intuitivamente, esto permite que el modelo ahorre cómputo al aprender primero las dependencias de menor alcance antes de pasar a secuencias más largas. Al hacer esto, podemos entrenar en órdenes de magnitud más tokens en comparación con el entrenamiento directo en la longitud máxima de la secuencia objetivo».

berkeley-2024-lwm-secuencias-de-datos-de-entrenamiento — LWM se entrena en secuencias de datos de longitud creciente.

UC Berkeley

Los datos utilizados para entrenar LWM incluyen algunos de los conjuntos de datos más destacados que se han puesto a disposición, incluido Books3, que es en el centro de la controversia sobre la infracción de derechos de autor. Los investigadores también utilizaron Video Instruct-100K, un «conjunto de datos de conversaciones de vídeo». alojado en GitHub.

Google no reveló los datos de entrenamiento de Gemini 1.0, sino que simplemente los describe como tal: «Los modelos Gemini se entrenan en un conjunto de datos que es multimodal y multilingüe. Nuestro conjunto de datos de preentrenamiento utiliza datos de documentos web, libros y códigos, e incluye datos de imagen, audio y vídeo.»

También: La IA liberará el siguiente nivel del potencial humano. Así es cómo

Si bien Google ya ha avanzado con Gemini 1.5, que puede manejar hasta 10 millones de tokens en su entrada, Liu y su equipo creen que Ring Attention puede «extenderse teóricamente a un contexto infinito, limitado únicamente por la cantidad de dispositivos disponibles».

Continúan: «Creemos que nuestro modelo lanzado proporcionará una base para el trabajo futuro en el desarrollo de modelos de contexto más largos, así como también fomentará puntos de referencia más desafiantes que contengan tareas difíciles de largo alcance que requieran mayores niveles de síntesis, en lugar de pura recuperación de hechos. «

El código de LWM está publicado en el sitio GitHub del equipo de investigación.

Enlace fuente