Operai está trayendo nuevos modelos de transcripción y IA generadores de voz a su API que la compañía afirma mejorar sus lanzamientos anteriores.
Para OpenAI, los modelos se ajustan a su visión «agente» más amplia: construir sistemas automatizados que puedan realizar de forma independiente las tareas en nombre de los usuarios. La definición de «agente» podría estar en disputapero el Jefe de Producto Olivier Olivier Godement describió una interpretación como un chatbot que puede hablar con los clientes de una empresa.
«Vamos a ver más y más agentes aparecen en los próximos meses», dijo Godement a TechCrunch durante una sesión informativa. «Y así, el tema general es ayudar a los clientes y desarrolladores a aprovechar a los agentes que son útiles, disponibles y precisos».
Operai afirma que su nuevo modelo de texto a voz, «GPT-4O-Mini-TTS», no solo ofrece un discurso más matizado y realista que también es más «orientable» que sus modelos de sintetización de voz de generación anterior. Los desarrolladores pueden instruir a GPT-4O-Mini-TTS sobre cómo decir cosas en el lenguaje natural, por ejemplo, «hablar como un científico loco» o «usar una voz serena, como un maestro de atención plena».
Aquí hay una voz de «verdadero estilo del crimen», la voz desgastada:
Y aquí hay una muestra de una voz «profesional» femenina:
Jeff Harris, miembro del personal de productos de OpenAI, le dijo a TechCrunch que el objetivo es permitir que los desarrolladores adapten la voz «experiencia» de voz y «contexto».
«En diferentes contextos, no solo quieres una voz plana y monótona», dijo Harris. «Si está en una experiencia de atención al cliente y desea que la voz se disculpa porque se ha cometido un error, en realidad puede tener la voz que tiene esa emoción … nuestra gran creencia, aquí, es que los desarrolladores y usuarios realmente quieren controlar no solo lo que se habla, sino cómo se habla las cosas».
En cuanto a los nuevos modelos de habla a texto de OpenAi, «GPT-4O-TRANSCRIE» y «GPT-4O-Mini-Transcribe», reemplazan efectivamente el largo de la compañía. Modelo de transcripción de susurro. Entrenados en «diversos conjuntos de datos de audio de alta calidad», los nuevos modelos pueden capturar mejor el habla acentuada y variada, afirmaciones de OpenAI, incluso en entornos caóticos.
También es menos probable que alucine, agregó Harris. Susurros notoriamente tendió a fabricar palabras – e incluso pasajes completos, en conversaciones, introduciendo todo, desde comentarios raciales hasta tratamientos médicos imaginados en transcripciones.
«[T]Estos modelos están muy mejorados en lugar de susurros en ese frente «, dijo Harris.» Asegurarse de que los modelos sean precisos es completamente esencial para obtener una experiencia de voz confiable y preciso [in this context] significa que los modelos escuchan las palabras con precisión [and] no están completando detalles que no escucharon «.
Sin embargo, su kilometraje puede variar según el lenguaje que se transcita.
Según los puntos de referencia internos de OpenAI, GPT-4O-TRANSCRIETS, el más preciso de los dos modelos de transcripción, tiene una «tasa de error de palabras» que se acerca al 30% (de 120%) para idiomas indrav y dravidianos como tamil, telugu, malayalam y kannada. Eso significa que tres de cada 10 palabras del modelo diferirán de una transcripción humana en esos idiomas.

En un descanso de la tradición, Operai no planea hacer que sus nuevos modelos de transcripción estén disponibles abiertamente. La empresa Se lanzó históricamente nuevas versiones de Whisper Para uso comercial bajo una licencia MIT.
Harris dijo que GPT-4O-Transcribe y GPT-4O-Mini-Transcribe son «mucho más grandes que susurros» y, por lo tanto, no son buenos candidatos para un lanzamiento abierto.
«[T]Oye, no es el tipo de modelo que puedes ejecutar localmente en tu computadora portátil, como Whisper «, continuó».[W]Desea asegurarnos de que si estamos lanzando cosas en código abierto, lo estamos haciendo pensativamente, y tenemos un modelo que realmente está perfeccionado para esa necesidad específica. Y creemos que los dispositivos de usuario final son uno de los casos más interesantes para los modelos de código abierto «.
Actualizado el 20 de marzo de 2025, 11:54 am PT para aclarar el idioma alrededor de la tasa de error de palabras y actualizó la tabla de resultados de referencia con una versión más reciente.