Operai lanzó el viernes un nuevo modelo de «razonamiento» de AI, O3-Mini, el más nuevo de la compañía. o Familia de modelos de razonamiento.
Opadai Previo primero el modelo en diciembre Junto con un sistema más capaz llamado O3, pero el lanzamiento llega en un momento crucial para la compañía, cuyas ambiciones, y desafíos, aparentemente están creciendo cada día.
Operai está luchando contra la percepción de que está cediendo terreno en la carrera de IA para Empresas chinas como Deepseekque Operai alega que podría haber robado su IP. Ha estado tratando de apuntalar su relación con Washington ya que simultáneamente persigue un Proyecto de centro de datos ambiciosoy Como se informa, sienta las bases para una de las rondas de financiación más grandes de la historia.
Lo que nos lleva a O3-Mini. Operai está lanzando su nuevo modelo como «poderoso» y «asequible».
«Las marcas de lanzamiento de hoy […] Un paso importante hacia la ampliación de la accesibilidad a la IA avanzada en el servicio de nuestra misión ”, dijo un portavoz de Operai a TechCrunch.
Razonamiento más eficiente
A diferencia de la mayoría de los modelos de idiomas grandes, los modelos de razonamiento como O3-Mini revisan a fondo antes de dar resultados. Esto les ayuda Evite algunas de las trampas que normalmente tropiezan con los modelos. Estos modelos de razonamiento tardan un poco más en llegar a soluciones, pero la compensación es que tienden a ser más confiables, aunque no perfectas, en dominios como la física.
O3-Mini está ajustado para problemas STEM, específicamente para programación, matemáticas y ciencias. Operai afirma que el modelo está en gran medida a la par con la familia O1, O1 y O1-Mini, en términos de capacidades, pero funciona más rápido y cuesta menos.
La compañía afirmó que los probadores externos prefirieron las respuestas de O3-Mini sobre las de O1-Mini más de la mitad del tiempo. O3-Mini aparentemente también cometió un 39% menos de «errores importantes» en «preguntas difíciles del mundo real» en Pruebas A/B versus O1-Mini, y produjo respuestas «más claras» mientras ofrecía respuestas aproximadamente un 24% más rápidas.
O3-Mini estará disponible para todos los usuarios a través de Chatgpt A partir del viernes, pero los usuarios que pagan el chatgpt plus de OpenAI y los planes de equipo obtendrán un límite de tarifa más alto de 150 consultas por día. Los suscriptores de ChatGPT Pro tendrán acceso ilimitado, y O3-Mini vendrá a los clientes de ChatGPT Enterprise y ChatGPT EDU en una semana. (No hay palabra sobre Chatgpt Gov todavía).
Los usuarios con planes premium pueden seleccionar O3-Mini utilizando el menú desplegable CHATGPT. Los usuarios gratuitos pueden hacer clic o tocar el nuevo botón «Razón» en la barra de chat, o hacer que ChatGPT «vuelva a generar» una respuesta.
A partir del viernes, O3-Mini también estará disponible a través de la API de Openai para seleccionar desarrolladores, pero inicialmente no tendrá soporte para analizar imágenes. Los desarrolladores pueden seleccionar el nivel de «esfuerzo de razonamiento» (bajo, medio o alto) para que O3-Mini «piense más duro» en función de su caso de uso y necesidades de latencia.
O3-Mini tiene un precio de $ 0.55 por millón de tokens de entrada en caché y $ 4.40 por millón de tokens de salida, donde un millón de tokens equivale a aproximadamente 750,000 palabras. Eso es 63% más barato que O1-Mini, y competitivo con el precio del modelo de razonamiento R1 de Deepseek. Deepseek cobra $ 0.14 por millón de tokens de entrada almacenados en caché y tokens de salida de $ 2.19 por millón para el acceso R1 a través de su API.
En ChatGPT, O3-Mini está establecido en un esfuerzo de razonamiento medio, que según OpenAi proporciona «una compensación equilibrada entre velocidad y precisión». Los usuarios pagos tendrán la opción de seleccionar «O3-Mini-High» en el selector de modelo, que entregará lo que OpenAI llama «mayor inteligencia» a cambio de respuestas más lentas.
Independientemente de qué versión de los usuarios de O3-Mini ChatGPT elija, el modelo funcionará con la búsqueda para encontrar respuestas actualizadas con enlaces a fuentes web relevantes. OpenAI advierte que la funcionalidad es un «prototipo», ya que funciona para integrar la búsqueda en sus modelos de razonamiento.
«Si bien O1 sigue siendo nuestro modelo de razonamiento general más amplio, O3-Mini proporciona una alternativa especializada para dominios técnicos que requieren precisión y velocidad», escribió OpenAi en una publicación de blog el viernes. «El lanzamiento de O3-Mini marca otro paso en la misión de OpenAi de superar los límites de la inteligencia rentable».
Abundan las advertencias
O3-Mini no es el modelo más poderoso de OpenAI hasta la fecha, ni salta el modelo de razonamiento R1 de Deepseek en cada punto de referencia.
O3-Mini supera a R1 en AIME 2024, una prueba que mide qué tan bien los modelos entienden y responden a instrucciones complejas, pero solo con un gran esfuerzo de razonamiento. También supera a R1 en la prueba de prueba centrada en la programación verificado (por .1 punto), pero nuevamente, solo con un gran esfuerzo de razonamiento. En un bajo esfuerzo de razonamiento, O3-Mini retrasa R1 en GPQA Diamond, que prueba modelos con preguntas de física, biología y química a nivel de doctorado.
Para ser justos, O3-Mini responde muchas consultas a un costo y latencia competitivamente de bajo. En la publicación, Openai compara su rendimiento con la familia O1:
«Con un bajo esfuerzo de razonamiento, O3-Mini logra un rendimiento comparable con O1-Mini, mientras que con un esfuerzo medio, O3-Mini logra un rendimiento comparable con O1», escribe Openai. “O3-Mini con esfuerzo de razonamiento medio coincide con el rendimiento de O1 en matemáticas, codificación y ciencia mientras ofrece respuestas más rápidas. Mientras tanto, con un gran esfuerzo de razonamiento, O3-Mini supera a O1-Mini y O1 «.
Vale la pena señalar que la ventaja de rendimiento de O3-Mini sobre O1 es escasa en algunas áreas. En el AIME 2024, O3-Mini vence a O1 por solo 0.3 puntos porcentuales cuando se establece en un esfuerzo de razonamiento alto. Y en GPQA Diamond, O3-Mini no supera el puntaje de O1 incluso en un gran esfuerzo de razonamiento.
Operai afirma que O3-Mini es tan «seguro» o más seguro que la familia O1, sin embargo, gracias a los esfuerzos de equipo rojo y su metodología de «alineación deliberativa», lo que hace que los modelos «piensen» sobre la política de seguridad de OpenAi mientras responden a consultas. Según la compañía, O3-Mini «supera significativamente» uno de los modelos insignia de OpenAi, GPT-4Oen «Evaluaciones desafiantes de seguridad y jailbreak».
¡TechCrunch tiene un boletín centrado en AI! Regístrese aquí Para conseguirlo en su bandeja de entrada todos los miércoles.