AbiertoAI anunció una mejora importante en su último inteligencia artificial (AI) modelo GPT-4 Turbo el martes. El modelo de IA ahora viene con capacidades de visión por computadora, lo que le permite procesar y analizar entradas multimedia. Puede responder preguntas sobre una imagen, un video y más. La compañía también destacó varias herramientas de inteligencia artificial impulsadas por GPT-4 Turbo con Vision, incluido el asistente de codificación de inteligencia artificial Devin y la función Snap de Healthify. La semana pasada, la empresa de IA introducido una nueva característica que permitiría a los usuarios editar imágenes generadas por DALL-E 3 dentro de ChatGPT.
El anuncio lo hizo la cuenta oficial de OpenAI Developers, que decía en una X (antes conocida como Twitter) correo, “GPT-4 Turbo con Vision ahora está disponible de forma generalizada en la API. Las solicitudes de visión ahora también pueden usar el modo JSON y la llamada a funciones”. Posteriormente, la cuenta X de OpenAI también reveló que la función ahora está disponible en API y se está implementando en ChatGPT.
GPT-4 Turbo con Vision es esencialmente el GPT-4 modelo básico con las mayores salidas de tokens introducidas con el modelo Turbo, y ahora viene con visión por computadora mejorada para analizar archivos multimedia. Las capacidades de visión se pueden utilizar en una variedad de métodos. El usuario final, por ejemplo, puede utilizar esta capacidad cargando una imagen del Taj Mahal en ChatGPT y pidiéndole que explique de qué material está hecho el edificio. Los desarrolladores pueden ir un paso más allá y ajustar la capacidad de sus herramientas para propósitos específicos.
OpenAI destacó algunos de estos casos de uso en la publicación. Cognición AI’s Devin chatbotque es una codificación impulsada por IA asistenteutiliza GPT-4 Turbo con Vision para ver las complejas tareas de codificación y su entorno sandbox para crear programas.
De manera similar, la plataforma india de seguimiento de calorías y retroalimentación nutricional Healthify tiene una función llamada Snap donde los usuarios pueden hacer clic en una imagen de un alimento o una cocina, y la plataforma revela las posibles calorías que contiene. Con las capacidades de GPT-4 Turbo con Vision, ahora también recomienda lo que el usuario debe hacer para quemar las calorías adicionales o formas de reducir las calorías en la comida.
En particular, este modelo de IA tiene una ventana de contexto de 128.000 tokens y sus datos de entrenamiento se extienden hasta diciembre de 2023.