Los investigadores crean un modelo de razonamiento por menos de $ 50, se desempeña similar al O1 de OpenEI

[ad_1]

Por qué importa: Todos están presentando formas nuevas e innovadoras de trabajar en torno a los costos masivos involucrados en la capacitación y la creación de nuevos modelos de IA. Después del impresionante debut de Deepseek, que sacudió a Silicon Valley, un grupo de investigadores ha desarrollado un rival abierto que, según los informes, coincide con las habilidades de razonamiento de Openi’s O1.

Los investigadores de Stanford y la Universidad de Washington idearon una técnica para crear un nuevo modelo de IA denominado «S1». Ya lo han obtenido Girubjunto con el código y los datos utilizados para construirlo. Un papel publicado El viernes pasado explicó cómo el equipo logró estos resultados a través de trucos técnicos inteligentes.

En lugar de capacitar a un modelo de razonamiento desde cero, un esfuerzo costoso que costó a millones, tomaron un modelo de lenguaje existente y lo «afinó» utilizando la destilación. Extrajaron las capacidades de razonamiento de uno de los modelos de IA de Google, específicamente, Gemini 2.0 Flash Thinking Experimental. Luego entrenaron el modelo base para imitar su proceso de resolución de problemas paso a paso en un pequeño conjunto de datos.

Otros han utilizado este enfoque antes. De hecho, la destilación es lo que Operai era acusador Profundo de hacer. Sin embargo, el equipo de Stanford/UW encontró una forma de costo más bajo de implementarlo a través de «ajuste supervisado».

Este proceso implica enseñar explícitamente el modelo cómo razonar usando ejemplos curados. Su conjunto de datos completo consistió en solo 1,000 preguntas y soluciones cuidadosamente seleccionadas extraídas del modelo de Google.

TechCrunch señala que el capacitación El proceso tomó 30 minutos, utilizando 16 GPU H100 NVIDIA. Por supuesto, estas GPU cuestan una pequeña fortuna, de alrededor de $ 25,000 por unidad, pero el alquiler funciona con menos de $ 50 en créditos de cómputo en la nube.

Los investigadores también descubrieron un buen truco para impulsar las capacidades de S1 aún más. Instruyeron al modelo para que «espere» antes de proporcionar su respuesta final. Este comando le permitió más tiempo verificar su razonamiento para llegar a soluciones ligeramente mejoradas.

El modelo no está exento de advertencias. Dado que el equipo usó el modelo de Google como maestro, existe la pregunta de que las habilidades de S1, aunque impresionantes por su costo minúsculo, pueden no ser capaces de escalar para igualar la mejor IA que todavía tiene para ofrecer. También existe el potencial para que Google proteste. Podría estar esperando ver cómo va el caso de Openai.

[ad_2]

Enlace fuente