Google y Meta hecho notable inteligencia artificial (AI) anuncios el jueves, que revelan nuevos modelos con avances significativos. El gigante de las búsquedas presentó Gemini 1.5, un modelo de IA actualizado que incluye comprensión de contexto a largo plazo en diferentes modalidades. Mientras tanto, Meta anunció el lanzamiento de su modelo Video Joint Embedding Predictive Architecture (V-JEPA), un método de enseñanza no generativo para el aprendizaje automático (ML) avanzado a través de medios visuales. Ambos productos ofrecen nuevas formas de explorar las capacidades de la IA. En particular, OpenAI también introducido su primer modelo de generación de texto a video, Sora, el jueves.
Detalles del modelo Google Gemini 1.5
Demis Hassabis, director ejecutivo de Google DeepMind, anunció el lanzamiento de Gemini 1.5 a través de un entrada en el blog. El modelo más nuevo se basa en la arquitectura Transformer and Mixture of Experts (MoE). Si bien se espera que tenga diferentes versiones, actualmente solo se ha lanzado para pruebas tempranas el modelo Gemini 1.5 Pro. Hassabis dijo que el modelo multimodal de tamaño mediano puede realizar tareas a un nivel similar al Gemini 1.0 Ultra, que es el modelo generativo más grande de la compañía y es disponible como la suscripción Gemini Advanced con el plan Google One AI Premium.
La mayor mejora con Gemini 1.5 es su capacidad para procesar información de contexto largo. La versión Pro estándar viene con una ventana de contexto de 128.000 tokens. En comparación, Gemini 1.0 tenía una ventana de contexto de 32.000 tokens. Los tokens pueden entenderse como partes enteras o subsecciones de palabras, imágenes, videos, audio o código, que actúan como bloques de construcción para procesar información mediante un modelo básico. «Cuanto más grande sea la ventana de contexto de un modelo, más información podrá absorber y procesar en un mensaje determinado, lo que hará que su resultado sea más consistente, relevante y útil», explicó Hassabis.
Además de la versión Pro estándar, Google también lanza un modelo especial con una ventana contextual de hasta 1 millón de tokens. Esto se ofrece a un grupo limitado de desarrolladores y sus clientes empresariales en una vista previa privada. Si bien no existe una plataforma dedicada para ello, se puede probar a través de AI Studio de Google, una herramienta de consola en la nube para probar modelos de IA generativa, y Vertex AI. Google dice que esta versión puede procesar una hora de vídeo, 11 horas de audio, bases de código con más de 30.000 líneas de código o más de 700.000 palabras de una sola vez.
en un correo en X (anteriormente conocido como Twitter), Meta lanzó públicamente V-JEPA. No es un modelo de IA generativa, sino un método de enseñanza que permite a los sistemas de ML comprender y modelar el mundo físico viendo vídeos. La empresa lo calificó como un paso importante hacia la inteligencia artificial avanzada (AMI), una visión de uno de los tres «padrinos de la IA», Yann LeCun.
En esencia, es un modelo de análisis predictivo que aprende completamente de los medios visuales. No sólo puede entender lo que sucede en un vídeo sino también predecir lo que viene después. Para entrenarlo, la compañía afirma haber utilizado una nueva tecnología de enmascaramiento, donde partes del vídeo estaban enmascaradas tanto en el tiempo como en el espacio. Esto significa que algunos fotogramas de un vídeo se eliminaron por completo, mientras que otros tenían fragmentos tachados, lo que obligó al modelo a predecir tanto el fotograma actual como el siguiente. Según la empresa, el modelo pudo hacer ambas cosas de manera eficiente. En particular, el modelo puede predecir y analizar vídeos de hasta 10 segundos de duración.
“Por ejemplo, si el modelo necesita poder distinguir entre alguien que deja un bolígrafo, lo levanta y finge dejar un bolígrafo pero en realidad no lo hace, V-JEPA es bastante bueno en comparación con los métodos anteriores para eso. tarea de reconocimiento de acciones de alto grado”, dijo Meta en un entrada en el blog.
Actualmente, el modelo V-JEPA sólo utiliza datos visuales, lo que significa que los vídeos no contienen ninguna entrada de audio. Meta ahora planea incorporar audio junto con video en el modelo ML. Otro objetivo de la empresa es mejorar sus capacidades en vídeos más largos.