
Los enfoques de código abierto siguen siendo prometedores en la democratización inteligencia artificial (AI).
Vista previa del Sky-T1-32B de NovaSky
El viernes, el equipo de investigación NovaSky de UC Berkeley liberado un nuevo modelo de razonamiento, Sky-T1-32B-Preview, que funciona de manera comparable al de OpenAI o1-vista previa — solo que es de código abierto y fue construido en sólo 19 horas por menos de $450 usando ocho GPU Nvidia H100.
También: Los mejores modelos de IA de código abierto: todas sus opciones de uso gratuito explicadas
El equipo desarrolló Sky-T1 ajustando Qwen2.5-32-Instruct de Alibaba y lo entrenó con datos generados con QwQ-32B-Preview, otro modelo de código abierto comparable a o1-preview. Usando datos de entrenamiento sintéticos puede ayudar a reducir los costos.
«Seleccionamos la combinación de datos para cubrir diversos dominios que requieren razonamiento y un procedimiento de muestreo de rechazo para mejorar la calidad de los datos. Luego reescribimos los rastros de QwQ con GPT-4o-mini en una versión bien formateada, inspirada en Todavía-2para mejorar la calidad de los datos y facilitar el análisis», dice el equipo sobre su proceso de preparación de datos en el blog.
Superando la vista previa o1 de OpenAI
El modelo tuvo un rendimiento igual o superior al nivel de o1-preview en los puntos de referencia de matemáticas y codificación, pero no superó a o1 en el punto de referencia de nivel de posgrado. GPQA-Diamanteque incluye preguntas más avanzadas relacionadas con la física. NovaSky abrió todas las partes del modelo, incluidos pesos, datos, infraestructura y detalles técnicos.
También: El o1 de OpenAI miente más que cualquier modelo importante de IA. ¿Por qué eso importa?
o1 es ahora fuera de vista previa y por lo tanto es más capaz que su lanzamiento inicial. Además, OpenAI ya se está preparando para lanzar o3, que según la compañía puede superar a o1. Pero como señala el equipo de NovaSky en su blog, el hecho de que Sky-T1 pudiera construirse tan rápidamente todavía «demuestra[es] que es posible replicar capacidades de razonamiento de alto nivel de manera asequible y eficiente».
Un modelo de razonamiento más asequible
El tiempo de capacitación relativamente corto de 19 horas significa que construir Sky-T1 cuesta solo $ 450, según los precios de Lambda Cloud, aclara el equipo en la publicación del blog. En vista de GPT-4 utilizó unos supuestos 78 millones de dólares En informática, no es poca cosa presentar un ejemplo de un modelo de razonamiento más asequible que pueda ser replicado por grupos académicos y de código abierto que carecen de la financiación de OpenAI.
Casi la mitad de los que adoptan IA generativa quiero que sea de código abiertocitando preocupaciones sobre costos y confianza. Avances continuos en IA de código abierto podría crear un campo de juego más equitativo para que los laboratorios más pequeños, las organizaciones sin fines de lucro y otras entidades desarrollen modelos competitivos, un giro refrescante para un nuevo campo ya dominado por los gigantes tecnológicos.