GPT-4o analiza texto, audio o fotografías y da respuestas en chats en tiempo real

La plataforma ChatGPT de OpenAI se volvió mucho más interactiva con el lanzamiento de GPT-4o. Este «modelo insignia» analiza la entrada de audio, visual y/o texto, proporcionando respuestas a través de una conversación en tiempo real con un agente de inteligencia artificial que suena muy humano.

Anunciado este lunes (13 de mayo) en un evento de lanzamiento en línea organizado por la CTO de OpenAI, Mira Murati, GPT-4o se describe como «un paso hacia una interacción persona-computadora mucho más natural». La o en su nombre significa «omni».

Con el objetivo de ofrecer un mayor rendimiento a los usuarios del servicio gratuito, se afirma que iguala el rendimiento del modelo pago GPT-4 Turbo en el procesamiento de texto y entrada de código, al mismo tiempo que es mucho más rápido y un 50% más barato en la API (lo que significa que puede integrarse en aplicaciones de terceros por menos dinero).

Los usuarios comienzan con un simple mensaje vocal «Hola, ChatGPT», y reciben una respuesta hablada muy efervescente del agente. Utilizando un lenguaje sencillo, el usuario envía su consulta acompañada de texto, audio y/o imágenes si es necesario; estas últimas pueden incluir fotos, una transmisión en vivo desde la cámara de su teléfono o prácticamente cualquier otra cosa que el agente pueda «ver».

Cuando se trata de entradas de audio, la IA responde en un promedio de 320 milisegundos, lo que, según la compañía, es similar al tiempo de respuesta humano en una conversación entre humanos. Además, actualmente el sistema habla con fluidez más de 50 idiomas.

En el anuncio/demostración de hoy, no hubo retrasos incómodos en las respuestas del agente, lo que definitivamente contenía mucha emoción humana; HAL 9000 no lo era. Además, los usuarios pudieron interrumpir las respuestas del agente sin interrumpir el flujo de información de ida y vuelta.

Entre otras cosas, en la demostración también se vio a GPT-4o actuando como intérprete de una conversación italiano-inglés entre dos personas; ayudar a una persona a resolver una ecuación de álgebra escrita a mano; analizar secciones seleccionadas de código de programación; e incluso improvisar un cuento antes de dormir sobre un robot.

GPT-4o ya está disponible para uso general y se anunciarán más funciones durante las próximas semanas. Puedes verlo/escucharlo en acción en el vídeo a continuación.

Dos OpenAI GPT-4os interactuando y cantando

Fuente: AbiertoAI

Enlace fuente