Google presentó su inteligencia artificial (AI) modelo con la ventana contextual más grande, Gemini 1.5 Pro en vista previa pública el martes. El gigante tecnológico primero Anunciado el modelo de IA en febrero y, durante los dos meses siguientes, estuvo disponible en Google AI Studio para que los desarrolladores lo probaran. Ahora está disponible para que los usuarios lo prueben. Los entusiastas también pueden crear o acceder a claves API para construir utilizando el modelo de lenguaje grande (LLM). Al abrirlo al público, el gigante tecnológico también ha incluido múltiples capacidades nuevas en Geminis 1.5 Pro.
El modelo de IA fue introducido en vista previa pública durante el evento anual Google Cloud Next de la compañía. La versión estándar de Gemini 1.5 Pro viene con una ventana de contexto de 128.000 tokens. En comparación, Gemini 1.0 tenía una ventana de contexto de 32.000 tokens. También hay una variante especial del modelo que viene con una ventana de contexto masiva de un millón de tokens. Los tokens son las unidades principales de datos, que pueden entenderse como sílabas, palabras o subsecciones de palabras. La ventana de contexto es la cantidad de información a la que puede acceder un modelo de IA, según las palabras clave del mensaje, para encontrar información relevante.
Para ponerlo en contexto, una ventana de contexto de un millón de tokens podría tener alrededor de 700.000 palabras, lo que es similar a diez libros de tamaño promedio con 300 páginas. Este tipo de difusión de información permite a la IA comprender el contexto más amplio y responder con una respuesta que puede ser más relevante para el usuario. Además, esta capacidad es especialmente útil cuando un usuario quiere que la IA analice un archivo grande para encontrar una información particular.
El usuario de X (anteriormente conocido como Twitter), Rowan Cheung, pudo obtener acceso temprano al modelo de IA de Gemini y publicó sobre sus hallazgos al usarlo. en un correo, dijo, “Subí todo el concurso de volcadas de la NBA de anoche y pregunté qué volcada tenía la puntuación más alta. ¡Gemini 1.5 fue increíblemente capaz de encontrar el mate perfecto específico de 50 y los detalles simplemente a partir de su comprensión del video de contexto extenso!
El modelo de IA también viene con varias características nuevas. Google ha agregado soporte nativo de audio o voz, y Gemini 1.5 Pro puede comprender indicaciones verbales. Además, también se agregó una API de archivos para manejar archivos, instrucciones del sistema y modo JSON para que los desarrolladores tengan un mejor control sobre el modelo. También viene con su capacidad multimodal y puede analizar imágenes y videos. El modelo de IA está actualmente disponible en más de 180 países, incluida la India.