El jueves, Google desvelado Gemini 1.5 Pro, que la compañía describe como que ofrece un “rendimiento dramáticamente mejorado” con respecto al modelo anterior. La trayectoria de la IA de la empresa, vista internamente como cada vez más crítico para su futuro – sigue el presentación de Gemini 1.0 Ultra la semana pasada, junto con el cambio de nombre del chatbot Bard (a Gemini) para alinearse con las capacidades más potentes y versátiles del nuevo modelo.
En una publicación de blog de anuncio, el director ejecutivo de Google, Sundar Pichai, y el director ejecutivo de Google DeepMind, Demis Hassabis, intentan equilibrar la garantía a su audiencia sobre la seguridad ética de la IA mientras promocionan las capacidades de rápido avance de sus modelos. «Nuestros equipos continúan ampliando las fronteras de nuestros últimos modelos con la seguridad en el centro», resumió Pichai.
La empresa necesita hacer hincapié en la seguridad para los escépticos de la IA (incluido uno ex director ejecutivo de Google) y reguladores gubernamentales. Pero también necesita enfatizar el desempeño cada vez más acelerado de sus modelos para los desarrolladores de IA, los clientes potenciales y los inversionistas preocupados de que la compañía haya tardado demasiado en reaccionar. El gran éxito de OpenAI con ChatGPT.
Pichai y Hassabis dicen que Gemini 1.5 Pro ofrece resultados comparables a Gemini 1.0 Ultra. Sin embargo, Gemini 1.5 funciona a ese nivel de manera más eficiente, con requisitos computacionales reducidos. Las capacidades multimodales incluyen el procesamiento de texto, imágenes, vídeos, audio o código. A medida que avancen los modelos de IA, seguirán ofreciendo una gama más versátil de capacidades en un solo cuadro (otro ejemplo reciente fue OpenAI integra la generación de imágenes DALL-E 3 en ChatGPT).
Gemini 1.5 Pro también puede manejar hasta un millón de tokens, o las unidades de datos que los modelos de IA pueden procesar en una sola solicitud. Google dice que Gemini 1.5 Pro puede procesar más de 700.000 palabras, una hora de vídeo, 11 horas de audio y bases de código con más de 30.000 líneas de código. La compañía dice que incluso ha «probado con éxito» una versión que admite hasta 10 millones de tokens.
La compañía dice que Gemini 1.5 Pro mantiene una alta precisión en consultas con mayores recuentos de tokens cuando tiene más datos nuevos que aprender. Dice que el modelo impresionó en el Evaluación de aguja en un pajar. En esta prueba, los desarrolladores insertan una pequeña porción de información dentro de un bloque de texto largo para ver si el modelo de IA puede seleccionarla. Google dijo que Gemini 1.5 Pro podría encontrar el texto incrustado el 99 por ciento de las veces en bloques de datos de hasta un millón de tokens.
Google dice que Gemini 1.5 Pro puede razonar sobre varios detalles de las transcripciones de la misión lunar Apolo 11 de 402 páginas. Además, puede analizar puntos de la trama y eventos de una película muda de 44 minutos protagonizada por Buster Keaton. «Dado que la ventana de contexto larga del 1.5 Pro es la primera de su tipo entre los modelos a gran escala, estamos desarrollando continuamente nuevas evaluaciones y puntos de referencia para probar sus novedosas capacidades», escribió Hassabis.
Google está lanzando Gemini 1.5 Pro con capacidades de 128.000 tokens, el mismo número en el que los modelos GPT-4 de OpenAI (anunciados públicamente) alcanzan su máximo. Hassabis dice que Google eventualmente introducirá nuevos niveles de precios que admitan hasta un millón de consultas de tokens.
Gemini 1.5 Pro también es experto en aprender nuevas habilidades a partir de información en indicaciones largas, sin ajustes adicionales (“aprendizaje en contexto”). En un punto de referencia llamado Traducción automática de un libro, el modelo aprendió un manual de gramática para Kalamang, un idioma con menos de 200 hablantes en todo el mundo en el que no había sido entrenado previamente. La compañía dice que Gemini 1.5 Pro aprendió a funcionar a un nivel similar al de un ser humano que aprende el mismo contenido al traducir del inglés al Kalamang.
En una parte del anuncio que llamará la atención de los desarrolladores, Google dice que Gemini 1.5 Pro puede realizar tareas de resolución de problemas en bloques de código más largos. «Cuando se le presenta un mensaje con más de 100.000 líneas de código, puede razonar mejor entre ejemplos, sugerir modificaciones útiles y dar explicaciones sobre cómo funcionan las diferentes partes del código», escribió Hassabis.
En el frente de la ética y la seguridad, Google dice que está adoptando “el mismo enfoque de implementación responsable” que adoptó con los modelos Gemini 1.0. Eso incluye desarrollar y aplicar técnicas de formación de equipos rojos, en las que un grupo de desarrolladores éticos básicamente actúa como abogado del diablo y realiza pruebas para detectar «una variedad de daños potenciales». Además, la compañía dice que examina minuciosamente áreas como la seguridad del contenido y los daños a la representación. La compañía dice que continúa desarrollando nuevas pruebas éticas y de seguridad para sus herramientas de inteligencia artificial.
Google está lanzando Gemini 1.5 en acceso temprano para desarrolladores y clientes empresariales. La compañía planea hacer que su disponibilidad sea más amplia con el tiempo. Gemini 1.0 está actualmente disponible para los consumidores, junto con un Variante profesional eso cuesta $20 mensuales.