xAI de Elon Musk presenta el modelo de IA Grok 1.5 Vision en vista previa, para competir con GPT-4 Vision y Gemini Pro 1.5

Elon Musk La empresa de inteligencia artificial (IA) xAI ha presentado un nuevo modelo de IA denominado Grok 1.5 Visión. Este modelo de lenguaje grande (LLM) es una versión mejorada del modelo Grok 1.5 lanzado recientemente. Con esta actualización, el modelo de IA ahora está equipado con visión por computadora, lo que lo hace capaz de aceptar medios visuales como entrada. Puede procesar imágenes y responder preguntas al respecto. En particular, el anuncio se produjo pocos días después de OpenAI. introducido su propio modelo GPT-4 impulsado por visión por computadora.

El anuncio fue realizado por la cuenta oficial X (anteriormente conocida como Twitter) de xAI. La firma compartió un entrada en el blog detallando el nuevo modelo de IA y compartió algunos de sus puntajes de referencia. Desde que se agregaron las capacidades de visión al recientemente desvelado Modelo Grok 1.5, la mayoría de los detalles siguen siendo los mismos. Tiene la misma ventana de contexto de 1,28,000 tokens y es probable que las puntuaciones de referencia generales también sigan siendo las mismas.

xAI también compartió los puntajes de referencia de Grok 1.5 Vision probados en un punto de referencia desarrollado por la compañía. La firma de IA lo llama el punto de referencia RealWorldQA y mide la «comprensión espacial del mundo real». También probó el modelo en varios otros puntos de referencia, como MMMU, Mathvista, ChartQA y más. Mientras que Grok superó OpenAI GPT-4 con Vision y Gemini 1.5 Pro en RealWorldQA, obtuvo menos puntuación en MMMU y ChartQA.

Para los no expertos, la visión por computadora es una rama de la informática que se ocupa de equipar a las computadoras (y a los modelos de IA) con la capacidad de identificar y comprender objetos en el mundo real mediante imágenes y videos. Está diseñado para ayudar a las computadoras a ver y procesar señales visuales como lo hacen los humanos. Con el auge de los modelos de IA multimodal, muchas empresas se están centrando ahora en desarrollar modelos centrados en la visión. de google Geminis 1.5 Pro y GPT-4 de OpenAI con Vision tienen esta capacidad.

Esta tecnología también ofrece una amplia gama de aplicaciones. La plataforma india de seguimiento de calorías y retroalimentación nutricional Healthify agregó recientemente una función llamada Snap donde los usuarios pueden hacer clic en una imagen de un alimento o cocina, y GPT-4 con un chatbot de inteligencia artificial impulsado por Vision sugiere cómo se puede hacer que la receta sea más saludable y en qué medida. ejercicio que uno necesita hacer para quemar las calorías adicionales. En el futuro, los modelos de IA con visión por computadora podrán ayudar en el diagnóstico de enfermedades, la construcción de vehículos autónomos y más.

Los enlaces de afiliados pueden generarse automáticamente; consulte nuestra Declaración de Ética para detalles.

Comentarios

Para lo último noticias tecnicas y opinionessigue Gadgets 360 en X, Facebook, WhatsApp, Hilos y noticias de Google. Para ver los últimos vídeos sobre gadgets y tecnología, suscríbete a nuestro Canal de Youtube. Si quieres saber todo sobre los principales influencers, sigue nuestro interno. ¿Quién es ese 360? en Instagram y YouTube.

Square Enix apunta a lanzar el tercer juego de la trilogía Final Fantasy 7 Remake para 2027

Apple pierde el puesto de principal fabricante de teléfonos frente a Samsung a medida que caen los envíos de iPhone, dice IDC