¿Importa el tamaño?
Los requisitos de memoria son la ventaja más obvia de reducir la complejidad de los pesos internos de un modelo. El modelo BITNET B1.58 puede ejecutarse utilizando solo 0.4 GB de memoria, en comparación con cualquier lugar de 2 a 5 GB para otros modelos de peso abierto de aproximadamente el mismo tamaño de parámetros.
Pero el sistema de ponderación simplificado también conduce a una operación más eficiente en el momento de la inferencia, con operaciones internas que se basan mucho más en las instrucciones de adición simples y menos en las instrucciones de multiplicación computacionalmente costosas. Esas mejoras en la eficiencia BitNet B1.58 utiliza entre 85 y 96 por ciento menos de energía en comparación con modelos similares de precisión completa, estiman los investigadores.
Una demostración de Bitnet B1.58 que se ejecuta a velocidad en una CPU Apple M2.
Utilizando un núcleo altamente optimizado Diseñado específicamente para la arquitectura BitNet, el modelo BitNet B1.58 también puede ejecutarse varias veces más rápido que los modelos similares que se ejecutan en un transformador de precisión completo estándar. El sistema es lo suficientemente eficiente como para alcanzar «velocidades comparables a la lectura humana (5-7 tokens por segundo)» Usando una sola CPU, los investigadores escriben (puede Descargue y ejecute esos núcleos optimizados usted mismo en una serie de CPU de brazo y x86, o pruébelo usando esta demostración web).
De manera crucial, los investigadores dicen que estas mejoras no tienen costo de rendimiento en varios puntos de referencia que prueba el razonamiento, las matemáticas y las capacidades de «conocimiento» (aunque esa afirmación aún no se ha verificado de forma independiente). Promediando los resultados en varios puntos de referencia comunes, los investigadores encontraron que BitNet «logra las capacidades casi a la par con los modelos líderes en su clase de tamaño, al tiempo que ofrecen una eficiencia dramáticamente mejorada».
A pesar de su huella de memoria más pequeña, BitNet todavía funciona de manera similar a los modelos ponderados de «precisión completa» en muchos puntos de referencia.
A pesar del aparente éxito de este modelo de BitNet de «prueba de concepto», los investigadores escriben que no entienden por qué el modelo funciona tan bien como lo hace con una ponderación tan simplificada. «Profundizar más profundamente en los fundamentos teóricos de por qué el entrenamiento de 1 bit a escala es efectivo sigue siendo un área abierta», escriben. Y todavía se necesita más investigación para que estos modelos BITNET compitan con el tamaño general y la «memoria» de la ventana de contexto de los modelos más grandes de hoy.
Aún así, esta nueva investigación muestra un posible enfoque alternativo para los modelos de IA que enfrentan costos de hardware y energía en espiral Desde correr con GPU costosas y potentes. Es posible que los modelos de «precisión completa» de hoy en día sean como los muscle cars que están desperdiciando mucha energía y esfuerzo cuando el equivalente de un buen subcompacto podría ofrecer resultados similares.