Meta ha revelado detalles sobre su infraestructura de entrenamiento de IA, revelando que actualmente depende de casi 50.000 NVIDIA GPU H100 para entrenar su LLM Llama 3 de código abierto.
La compañía dice que tendrá más de 350.000 GPU Nvidia H100 en servicio para fines de 2024 y una potencia informática equivalente a casi 600.000 H100 cuando se combina con hardware de otras fuentes.
Las cifras se revelaron cuando Meta compartió detalles sobre sus clústeres de escala de centro de datos de 24,576 GPU.
La compañía explicó: «Estos grupos respaldan nuestros modelos de IA actuales y de próxima generación, incluido Llama 3, el sucesor de Llama 2, nuestro LLM publicado públicamente, así como la investigación y el desarrollo de IA en GenAI y otras áreas».
Los clústeres se construyen en Grand Teton (que lleva el nombre del Parque Nacional de Wyoming), una plataforma de hardware GPU abierta y diseñada internamente. Grand Teton integra interfaces de energía, control, computación y estructura en un solo chasis para un mejor rendimiento general y escalabilidad.
Los clústeres también cuentan con estructuras de red de alto rendimiento, lo que les permite admitir modelos más grandes y complejos que antes. Meta dice que un clúster utiliza una solución de tejido de red de acceso remoto directo a memoria basada en Arista 7800, mientras que el otro cuenta con un tejido NVIDIA Quantum2 InfiniBand. Ambas soluciones interconectan puntos finales de 400 Gbps.
«La eficiencia de las estructuras de red de alto rendimiento dentro de estos clústeres, algunas de las decisiones clave de almacenamiento, combinadas con las 24,576 GPU NVIDIA Tensor Core H100 en cada uno, permiten que ambas versiones de clúster admitan modelos más grandes y complejos de los que podrían admitirse en el RSC y allanar el camino para avances en el desarrollo de productos GenAI y la investigación de IA», meta dijo.
El almacenamiento es otro aspecto crítico del entrenamiento en IA, y Meta ha desarrollado un sistema de archivos Linux en el espacio de usuario respaldado por una versión de su solución de almacenamiento distribuido ‘Tectonic’ optimizada para medios Flash. Según se informa, esta solución permite que miles de GPU guarden y carguen puntos de control de forma sincronizada, además de «proporcionar un almacenamiento flexible y de alto rendimiento a escala de exabytes necesario para la carga de datos».
Si bien la infraestructura de inteligencia artificial actual de la compañía depende en gran medida de las GPU de Nvidia, no está claro cuánto tiempo continuará así. A medida que Meta continúe evolucionando sus capacidades de IA, inevitablemente se centrará en desarrollar y producir más de su propio hardware. Meta ya ha anunciado planes para utilizar sus propios chips de IA. llamada artemisaen servidores este año, y la compañía reveló anteriormente que se estaba preparando para fabricar silicio RISC-V personalizado.