‘Una DPU virtual dentro de una GPU’: ¿podría HACK de hardware inteligente estar detrás de la innovadora eficiencia de IA de Deepseek? – Solución Profesional Streaming de Audio & Video

Un nuevo enfoque llamado Dualpipe parece ser la clave para el éxito de Deekseek
Un experto lo describe como una DPU virtual en la GPU que maximiza la eficiencia del ancho de banda
Si bien Deepseek ha usado solo las GPU de Nvidia, uno se pregunta cómo le iría al instinto de AMD

Deepseek AI de China chatbot ha sorprendido a la industria tecnológica, representando una alternativa creíble a Opadai‘s Chatgpt a una fracción del costo.

A papel reciente revelado Deepseek v3 fue entrenado en un grupo de 2,048 Nvidia H800 GPU: versiones paralizadas del H100 (solo podemos imaginar cuánto más poderoso se ejecutaría en Amd ¡Aceleradores de instinto!). Según se informa, requirió 2,79 millones de horas de GPU para el previación, ajustado, ajustado en 14.8 billones de tokens y costo, según los cálculos realizados por La siguiente plataforma – solo $ 5.58 millones.

Pero exactamente cómo los desarrolladores de Deepseek lograron esta hazaña probablemente se deba a un truco inteligente.

Una DPU virtual en la GPU en sí misma

Primero, algunos antecedentes. Deepseek es un modelo de lenguaje avanzado de la mezcla de expertos (MOE) diseñado para optimizar el rendimiento activando selectivamente solo las partes más relevantes de su arquitectura para cada tarea. La tercera versión del modelo, Deepseek-V3, presenta un total de 671 mil millones de parámetros, con solo 37 mil millones activados para cualquier predicción de token dada. Esta activación selectiva reduce masivamente los costos computacionales mientras mantiene un alto rendimiento y precisión, lo que verá si lo intenta.

Es fácil ser escéptico de Deepseek y las afirmaciones hechas con respecto a su entrenamiento, pero el documento revela parte de la magia que los desarrolladores se les ocurrió para aprovechar al máximo el hardware paralizado con el que tuvieron que trabajar. Esto incluye la creación del algoritmo Dualpipe para el paralelismo eficiente de la tubería.

Según la información publicada por Deepseek, Dualpipe se superpone al cálculo hacia adelante y hacia atrás, reduce la latencia y optimiza el movimiento de datos a través de las GPU. Al gestionar eficientemente la comunicación, minimiza el tiempo de inactividad (burbujas de tubería) y equilibra dinámicamente los núcleos de cómputo de GPU (transmisión de multiprocesadores) entre el cálculo y la comunicación, evitando los cuellos de botella de transferencia de datos a medida que el modelo escala.

Un comentarista en La siguiente plataforma Describe Dualpipe como «esencialmente creando una DPU virtual en la GPU en sí para manejar la comunicación total», lo que destaca su papel en la optimización de la eficiencia de transferencia de datos.

El documento entra en más detalle, «Para garantizar un rendimiento computacional suficiente para Dualpipe, personalizamos los núcleos de comunicación combinados de nodos cruzados eficientes (incluido el envío y la combinación) para conservar el número de SMS dedicados a la comunicación. La implementación de Los kernels están codiseñados con el algoritmo de activación del MOE y la topología de la red de nuestro clúster.

Ejemplo de programación de dualpipe

Ejemplo de programación de dualpipe para rangos de 8 pp y 20 micro-lotes en dos direcciones. Los micro-lotes en la dirección inversa son simétricos para los de la dirección hacia adelante, por lo que omitimos su ID de lote para la simplicidad de la ilustración. Dos células encerradas por un borde negro compartido tienen un cálculo y comunicación mutuamente superpuestos. (Crédito de la imagen: Deekseek)