Alfabeto Modelo de IA de Géminis Ha sido público durante solo dos meses, pero la compañía ya está lanzando una actualización. Gemini Pro 1.5, que se lanza hoy con disponibilidad limitada, es más potente que su predecesor y puede manejar grandes cantidades de entrada de texto, vídeo o audio a la vez.
Demis Hassabis, director ejecutivo de Google DeepMind, que desarrolló el nuevo modelo, compara su enorme capacidad de entrada con la memoria de trabajo de una persona, algo que exploró hace años como neurocientífico. «Lo mejor de estas capacidades centrales es que desbloquean algunas cosas auxiliares que el modelo puede hacer», afirma.
En una demostración, Google DeepMind mostró a Gemini Pro 1.5 analizando un PDF de 402 páginas de la transcripción de las comunicaciones del Apolo 11. Se pidió a la modelo que encontrara partes humorísticas y destacó varios momentos, como cuando los astronautas dijeron que un retraso en las comunicaciones se debía a la rotura de un sándwich. Otra demostración mostró al modelo respondiendo preguntas sobre acciones específicas en una película de Buster Keaton. La versión anterior de Gemini podría haber respondido estas preguntas sólo con cantidades mucho más cortas de texto o vídeo. Google espera que las nuevas capacidades permitan a los desarrolladores crear nuevos tipos de aplicaciones sobre el modelo.
«Realmente parece bastante mágico cómo el modelo realiza este tipo de razonamiento en cada página, cada palabra», dice Oriol Vinyals, científico investigador de Google DeepMind.
Google dice que Gemini Pro 1.5 puede asimilar y dar sentido a una hora de vídeo, 11 horas de audio, 700.000 palabras o 30.000 líneas de código a la vez, varias veces más que otros modelos de IA, incluidos GPT-4 de OpenAIque poderes ChatGPT. La compañía no ha revelado los detalles técnicos detrás de esta hazaña. Hassabis dice que un uso de los modelos que pueden manejar grandes cantidades de texto, probado por investigadores de Google DeepMind, es identificar las conclusiones importantes en las discusiones de Discord con miles de mensajes.
Gemini Pro 1.5 también es más capaz, al menos por su tamaño, según lo medido por la puntuación del modelo en varios puntos de referencia populares. El nuevo modelo explota una técnica previamente inventada por investigadores de Google para obtener más rendimiento sin requerir más potencia informática. La técnica, llamada mezcla de expertos, activa selectivamente partes de la arquitectura de un modelo que son más adecuadas para resolver una tarea determinada, lo que hace que su entrenamiento y ejecución sean más eficientes.
Google dice que Gemini Pro 1.5 es tan capaz como su oferta más poderosa, Gemini Ultra, en muchas tareas, a pesar de ser un modelo significativamente más pequeño. Hassabis dice que no hay ninguna razón por la que la misma técnica utilizada para mejorar Gemini Pro no pueda aplicarse para impulsar Gemini Ultra.
La versión mejorada de Gemini Pro estará disponible para los desarrolladores a través de AI Studio, una zona de pruebas para probar las capacidades del modelo, y para un número limitado de desarrolladores a través de la API de la plataforma en la nube Vertex AI de Google. Aún no hay fecha para un lanzamiento general.
Google también está lanzando nuevas herramientas para ayudar a los desarrolladores a utilizar Gemini en sus aplicaciones, incluidas nuevas formas de aprovechar la capacidad de los modelos para analizar vídeo y audio. La compañía también dijo que está agregando nuevas funciones impulsadas por Gemini a su herramienta de codificación basada en web, Project IDX, incluidas formas para que la IA depure y pruebe el código.
La velocidad de la actualización de Gemini es una señal de una furiosa carrera de IA iniciada por el éxito de ChatGPT. A principios de esta semana, OpenAI anunció que es dándole a ChatGPT la capacidad de recordar información útil de conversaciones durante largos períodos de tiempo. La semana pasada, Google cambió el nombre de su chatbot Bard y anunció que Gemini Ultra estaría disponible con una suscripción paga.
El ritmo frenético del progreso en la IA generativa contrasta con las preocupaciones sobre los riesgos que podría plantear la tecnología. Google dice que ha sometido a Gemini Pro 1.5 a pruebas exhaustivas y que proporcionar acceso limitado ofrece una forma de recopilar comentarios sobre riesgos potenciales. La compañía dice que también ha proporcionado a los investigadores del Instituto de Seguridad de IA del Reino Unido acceso a sus modelos más potentes para que puedan probarlos.
Hassabis dice que espera más avances en los próximos meses. «Esta es una nueva cadencia», dice, «estoy tratando de sacar de una especie de mentalidad de startup».