Rumores que AbiertoAI ha estado trabajando en algo importante que se ha ido intensificando en las últimas semanas, y el CEO Sam Altman él mismo tiene llevado a X (anteriormente Twitter) para confirmar que no será GPT-5 (la próxima versión de su innovadora serie de grandes modelos de lenguaje) o Un motor de busqueda para rivalizar Google. Lo que sugiere un nuevo informe, el último de esta saga, es que AbiertoAI podría estar a punto de presentar un modelo de IA más avanzado con procesamiento visual y de audio integrado.
OpenAI está al frente de la carrera de la IA y se esfuerza por ser el primero en crear una herramienta de software que se acerque lo más posible a comunicarse de manera similar a los humanos, pudiendo hablar con nosotros mediante sonido y texto, y también capaz de reconocer imágenes y objetos.
El informe que detalla este supuesto nuevo modelo llega de la información, que habló con dos fuentes anónimas a quienes aparentemente se les han mostrado algunas de estas nuevas capacidades. Afirman que el modelo entrante tiene un mejor razonamiento lógico que los actualmente disponibles para el público, pudiendo convertir texto en voz. Nada de esto es nuevo para OpenAI como tal, pero lo que sí es nuevo es que toda esta funcionalidad se unifica en el rumoreado modelo multimodal.
Un modelo multimodal es aquel que puede comprender y generar información a través de múltiples modalidades, como texto, imágenes, audio y video. GPT-4 también es un modelo multimodal que puede procesar y producir texto e imágenes, y este nuevo modelo, en teoría, agregaría audio a su lista de capacidades, así como una mejor comprensión de las imágenes y tiempos de procesamiento más rápidos.
El panorama más amplio que OpenAI tiene en mente
La información describe la visión de Altman para los productos de OpenAI en el futuro como que implica el desarrollo de una IA altamente receptiva que funcione como la IA ficticia de la película «Su.” Altman imagina asistentes digitales de IA con capacidades visuales y auditivas capaces de lograr cosas que aún no son posibles, y con el tipo de capacidad de respuesta que permitiría a dichos asistentes servir como tutores para los estudiantes, por ejemplo. O el asistente de navegación y viajes definitivo que puede brindar a las personas la información más relevante y útil sobre su entorno o su situación actual en un instante.
La tecnología también podría usarse para mejorar los asistentes de voz existentes como Siri de Appley dar paso a mejores agentes de servicio al cliente impulsados por inteligencia artificial capaces de detectar cuando una persona con la que están hablando está siendo sarcástica, por ejemplo.
Según quienes tienen experiencia con el nuevo modelo, OpenAI lo pondrá a disposición de los suscriptores de pago, aunque no se sabe exactamente cuándo. Al parecer, OpenAI tiene planes de incorporar las nuevas funciones en la versión gratuita de su chatbot, ChatGPTeventualmente.
Según se informa, OpenAI también está trabajando para hacer que el funcionamiento del nuevo modelo sea más económico que el modelo más avanzado disponible actualmente. GPT-4 Turbo. Se dice que el nuevo modelo supera al GPT-4 Turbo cuando se trata de responder muchos tipos de consultas, pero aparentemente todavía es propenso a sufrir alucinaciones, un problema común con modelos como estos.
La empresa mantiene un evento hoy a las 10 a. m. PT / 1 p. m. ET / 6 p. m. BST (o 3 a. m. AEST el martes 14 de mayo en Australia), donde OpenAI pudo obtener una vista previa de este modelo avanzado. Si esto sucede, ejercería mucha presión sobre uno de los mayores competidores de OpenAI, Google.
Google celebrará su propia conferencia anual de desarrolladores, I/O 2024, el 14 de mayo, y un anuncio importante como este podría robar mucho ruido de todo lo que Google tenga para revelar, especialmente cuando se trata del esfuerzo de inteligencia artificial de Google. Geminis.