O3-Mini de OpenAI es un modelo AI más delgado que mantiene el ritmo de Deep Speek

Opadai está haciendo una versión más pequeña y más eficiente de su más inteligente inteligencia artificial Modelo disponible de forma gratuita, ya que busca responder a la exageración y el entusiasmo girando alrededor de una nueva oferta de código abierto de la startup de IA China Deepseek.

Wired informó previamente que Operai estaba preparando el nuevo modelollamado O3-Mini, para su lanzamiento el 31 de enero. Los investigadores de la compañía han estado trabajando horas extras para prepararlo para el horario estelar, según fuentes que hablaron bajo condición de anonimato.

O3-Mini, que Openai bromeó en diciembre, es una versión más pequeña del modelo que presenta las capacidades de razonamiento de IA más avanzadas de cualquier oferta de OpenAI hasta la fecha. El modelo puede romper problemas difíciles en partes constituyentes para descubrir la mejor manera de resolverlos.

«Este modelo poderoso y rápido avanza los límites de lo que los modelos pequeños pueden lograr», dijo la compañía En una publicación de blog Anunciando la disponibilidad de O3-Mini.

Operai está haciendo que O3-Mini esté disponible para todos los usuarios de Plus, Team y Pro de ChatGPT. Los usuarios de la versión gratuita de ChatGPT también podrán probar O3-Mini, pero no podrán enviar tantas consultas, dice la compañía.

Operai evidentemente ha estado utilizando estudiantes de doctorado para ayudar a capacitar un nuevo modelo durante algún tiempo. Hace varias semanas, la compañía comenzó a reclutar estudiantes de Ciencias de la Computación de doctorado a $ 100 por hora para una «colaboración de investigación» que «implicaría trabajar en modelos inéditos», según un correo electrónico visto por Wired.

Operai también parece haber estado reclutando estudiantes de doctorado con experiencia en otras áreas a través de una compañía llamada Mercor que usa regularmente para encontrar personal para la capacitación modelo. Un reciente publicación de trabajo Desde Mercor en los estados de LinkedIn: «El objetivo general de este proyecto del que puede formarse parte es crear preguntas de codificación científicas desafiantes diseñadas para probar las capacidades de los modelos de lenguaje grandes para generar código para resolver problemas de investigación científicos realistas».

La publicación de trabajo continúa dando un problema de ejemplo que es sorprendentemente similar a un problema en un punto de referencia llamado Scicode que está diseñado para probar la capacidad de un modelo de lenguaje grande para resolver problemas científicos complejos.

La noticia llega como Deepseek’s R1 continúa viendo la industria tecnológica de los Estados Unidos. El hecho de que un modelo tan poderoso podría liberarse de forma gratuita ejerce presión sobre Google y Anthrope para reducir sus precios.

Operai está particularmente ansioso por demostrar que sigue a la vanguardia del desarrollo y comercialización de IA, según fuentes dentro de la compañía.

El modelo disponible gratuitamente de Deepseek incorpora innovaciones que lo hicieron más eficiente para entrenar y servir. La compañía parece haberlo desarrollado utilizando muchos menos recursos que Operai y otras compañías estadounidenses que actualmente construyen modelos de IA fronterizos, aunque los detalles precisos de los gastos de Deepseek siguen siendo desconocidos. Opadai dice que cree R1 puede haber incorporado la salida de sus modelos a su entrenamiento.

¿Tienes una propina?

¿Es usted un empleado actual o anterior en OpenAI? Nos gustaría saber de usted. Usando un teléfono o computadora sin trabajo, Contact Knight AT will_knight@wired.com o en la señal a través de su nombre de usuario wak01.

El modelo más nuevo de OpenAI puede no eclipsar R1 en términos de precio, pero muestra que la compañía hará que la eficiencia sea parte de su enfoque en el futuro. Operai también dice que el modelo es especialmente fuerte en matemáticas, ciencias y codificación.

La compañía dice que el último modelo también incorporará nuevas características, incluida la capacidad de aprovechar las búsquedas web, las funciones de llamadas del código de un usuario y alternar entre los diferentes niveles de razonamiento que intercambian la velocidad de la velocidad de resolución de problemas.

El repentino ascenso de Deepseek también ha planteado preguntas sobre la estrategia del gobierno de los Estados Unidos para frenar el ascenso de China en la IA. Las últimas dos administraciones estadounidenses han introducido una serie de sanciones para frenar la capacidad de China para acceder a los chips Nvidia más avanzados que se usan típicamente para construir modelos de IA de vanguardia. Deepseek describió varios tipos de chips nvidia en su investigación, pero no está claro qué se usó exactamente.

Enlace fuente