La plataforma GPU más nueva de NVIDIA es Blackwell (Figura A), que empresas como AWS, Microsoft y Google planean adoptar para la IA generativa y otras tareas informáticas modernas, anunció el CEO de NVIDIA, Jensen Huang, durante el discurso de apertura en la conferencia NVIDIA GTC el 18 de marzo en San José, California.
Figura A
Los productos basados en Blackwell ingresarán al mercado de los socios de NVIDIA en todo el mundo a fines de 2024. Huang anunció una larga lista de tecnologías y servicios adicionales de NVIDIA y sus socios, hablando de IA generativa como sólo una faceta de la computación acelerada.
«Cuando te aceleras, tu infraestructura son las GPU CUDA», dijo Huang, refiriéndose a CUDA, la plataforma informática paralela y el modelo de programación de NVIDIA. «Y cuando eso sucede, es la misma infraestructura que para la IA generativa».
Blackwell permite la inferencia y el entrenamiento de modelos de lenguaje grandes
La plataforma GPU de Blackwell contiene dos matrices conectadas por una interconexión de chip a chip de 10 terabytes por segundo, lo que significa que cada lado puede funcionar esencialmente como si «las dos matrices pensaran que es un solo chip», dijo Huang. Tiene 208 mil millones de transistores y se fabrica utilizando el proceso TSMC 4NP de 208 mil millones de NVIDIA. Cuenta con un ancho de banda de memoria de 8 TB/S y 20 pentaFLOPS de rendimiento de IA.
Para las empresas, esto significa que Blackwell puede realizar entrenamiento e inferencia para modelos de IA escalando hasta 10 billones de parámetros, dijo NVIDIA.
Blackwell se ve mejorado por las siguientes tecnologías:
- La segunda generación de TensorRT-LLM y NeMo Megatron, ambos de NVIDIA.
- Marcos para duplicar el tamaño de cálculo y modelo en comparación con el motor transformador de primera generación.
- Computación confidencial con protocolos de cifrado de interfaz nativos para privacidad y seguridad.
- Un motor de descompresión dedicado para acelerar consultas de bases de datos en análisis de datos y ciencia de datos.
En cuanto a la seguridad, Huang dijo que el motor de confiabilidad “realiza una autoprueba, una prueba dentro del sistema, de cada bit de memoria en el chip Blackwell y de toda la memoria conectada a él. Es como si enviáramos el chip Blackwell con su propio probador”.
Los productos basados en Blackwell estarán disponibles a través de proveedores de servicios en la nube asociados, empresas del programa NVIDIA Cloud Partner y empresas seleccionadas. soberano nubes.
La línea de GPU Blackwell sigue la línea de GPU Grace Hopper, que debutó en 2022 (Figura B). NVIDIA dice que Blackwell ejecutará IA generativa en tiempo real en LLM de billones de parámetros a un costo 25 veces menor y un consumo de energía menor que la línea Hopper.
Figura B
NVIDIA GB200 Grace Blackwell Superchip conecta múltiples GPU Blackwell
Junto con las GPU Blackwell, la compañía anunció el Superchip NVIDIA GB200 Grace Blackwell, que vincula dos GPU NVIDIA B200 Tensor Core a la CPU NVIDIA Grace, proporcionando una nueva plataforma combinada para la inferencia LLM. El Superchip NVIDIA GB200 Grace Blackwell se puede vincular con las plataformas Ethernet NVIDIA Quantum-X800 InfiniBand y Spectrum-X800 recientemente anunciadas por la compañía para velocidades de hasta 800 GB/S.
El GB200 estará disponible en NVIDIA DGX Cloud y a través de instancias de AWS, Google Cloud y Oracle Cloud Infrastructure a finales de este año.
El nuevo diseño del servidor mira hacia modelos de IA de billones de parámetros
El GB200 es un componente del recientemente anunciado GB200 NVL72, un diseño de servidor a escala de rack que incluye 36 CPU Grace y 72 GPU Blackwell para 1,8 exaFLOP de rendimiento de IA. NVIDIA espera posibles casos de uso para LLM masivos de billones de parámetros, incluida la memoria persistente de conversaciones, aplicaciones científicas complejas y modelos multimodales.
El GB200 NVL72 combina la quinta generación de conectores NVLink (5000 cables NVLink) y el superchip GB200 Grace Blackwell para obtener una enorme cantidad de potencia informática que Huang llama «un sistema de IA exoflops en un solo bastidor».
«Eso es más que el ancho de banda promedio de Internet… básicamente podríamos enviar todo a todo el mundo», dijo Huang.
«Nuestro objetivo es reducir continuamente el coste y la energía (están directamente relacionados entre sí) de la informática», afirmó Huang.
Para enfriar el GB200 NVL72 se necesitan dos litros de agua por segundo.
La próxima generación de NVLink ofrece una arquitectura de centro de datos acelerada
La quinta generación de NVLink proporciona un rendimiento bidireccional de 1,8 TB/s por comunicación de GPU entre hasta 576 GPU. Esta iteración de NVLink está pensada para utilizarse en los LLM complejos más potentes disponibles en la actualidad.
«En el futuro, los centros de datos serán considerados como una fábrica de inteligencia artificial», dijo Huang.
Presentamos los microservicios de inferencia de NVIDIA
Otro elemento de la posible «fábrica de IA» es el Microservicio de Inferencia de NVIDIA, o NIM, que Huang describió como «una nueva forma de recibir y empaquetar software».
Los NIM, que NVIDIA utiliza internamente, son contenedores con los que entrenar y desplegar IA generativa. Los NIM permiten a los desarrolladores utilizar API, NVIDIA CUDA y Kubernetes en un solo paquete.
VER: Python permanece el lenguaje de programación más popular según el Índice TIOBE. (República Tecnológica)
En lugar de escribir código para programar una IA, dijo Huang, los desarrolladores pueden “reunir un equipo de IA” que trabajen en el proceso dentro del NIM.
«Queremos construir chatbots (copilotos de IA) que funcionen junto con nuestros diseñadores», dijo Huang.
Los NIM estarán disponibles a partir del 18 de marzo. Los desarrolladores pueden experimentar con los NIM sin costo alguno y ejecutarlos a través de una suscripción a NVIDIA AI Enterprise 5.0.
Otros anuncios importantes de NVIDIA en el GTC 2024
Huang anunció una amplia gama de nuevos productos y servicios en computación acelerada e inteligencia artificial generativa durante la conferencia magistral de NVIDIA GTC 2024.
NVIDIA anunció cuPQC, una biblioteca utilizada para acelerar la criptografía poscuántica. Los desarrolladores que trabajan en criptografía poscuántica pueden comunicarse con NVIDIA para obtener actualizaciones sobre la disponibilidad.
La serie X800 de conmutadores de red de NVIDIA acelera la infraestructura de IA. En concreto, la serie X800 contiene los conmutadores Ethernet NVIDIA Quantum-X800 InfiniBand o NVIDIA Spectrum-X800, el conmutador NVIDIA Quantum Q3400 y el NVIDIA ConnectXR-8 SuperNIC. Los conmutadores X800 estarán disponibles en 2025.
Las principales asociaciones detalladas durante la presentación de NVIDIA incluyen:
- La plataforma de IA de pila completa de NVIDIA estará en Enterprise AI de Oracle a partir del 18 de marzo.
- AWS proporcionará acceso a instancias Amazon EC2 basadas en GPU NVIDIA Grace Blackwell y NVIDIA DGX Cloud con seguridad Blackwell.
- NVIDIA acelerará Google Cloud con la plataforma informática NVIDIA Grace Blackwell AI y el servicio NVIDIA DGX Cloud, que llegarán a Google Cloud. Google aún no ha confirmado una fecha de disponibilidad, aunque es probable que sea a finales de 2024. Además, la plataforma DGX Cloud con tecnología NVIDIA H100 estará disponible de forma general en Google Cloud a partir del 18 de marzo.
- Oracle utilizará NVIDIA Grace Blackwell en su OCI Supercluster, OCI Compute y NVIDIA DGX Cloud en Oracle Cloud Infrastructure. Alguno Servicios combinados de IA soberana de Oracle y NVIDIA Están disponibles a partir del 18 de marzo.
- Microsoft adoptará el superchip NVIDIA Grace Blackwell para acelerar Azure. Se puede esperar disponibilidad más adelante en 2024.
- Dell utilizará la infraestructura de IA y el paquete de software de NVIDIA para crear Dell AI Factory, una solución empresarial de IA de extremo a extremo, disponible a partir del 18 de marzo a través de canales tradicionales y Dell APEX. En un momento futuro no revelado, Dell utilizará el superchip NVIDIA Grace Blackwell como base para una arquitectura de refrigeración líquida, de alta densidad y a escala de rack. El Superchip será compatible con los servidores PowerEdge de Dell.
- SAP agregará capacidades de generación aumentada de recuperación de NVIDIA a su copiloto Joule. Además, SAP utilizará NIM de NVIDIA y otros servicios conjuntos.
«Toda la industria se está preparando para Blackwell», dijo Huang.
Competidores de los chips de IA de NVIDIA
NVIDIA compite principalmente con AMD e Intel en lo que respecta a proporcionar IA empresarial. Qualcomm, SambaNova, Groq y una amplia variedad de proveedores de servicios en la nube juegan en el mismo espacio en lo que respecta a la inferencia y el entrenamiento de IA generativa.
AWS tiene sus propias plataformas de inferencia y formación: Inferentia y Trainium. Además de asociarse con NVIDIA en una amplia variedad de productos, Microsoft tiene su propio chip de inferencia y entrenamiento de IA: el Maia 100 AI Accelerator en Azure.
Descargo de responsabilidad: NVIDIA pagó mi pasaje aéreo, alojamiento y algunas comidas para el evento NVIDIA GTC que se llevó a cabo del 18 al 21 de marzo en San José, California.