El mayor cuello de botella en los modelos de lenguaje grandes

Grandes modelos de lenguaje (LLM) como GPT-4 de OpenAI y Claude 2 de Anthropic han capturado la imaginación del público con su capacidad de generar texto similar a un humano. Las empresas están igualmente entusiasmadas y muchas exploran cómo aprovechar los LLM para mejorar productos y servicios. Sin embargo, un cuello de botella importante está limitando gravemente la adopción de los LLM más avanzados en entornos de producción: los límites de tasas. Hay formas de superar estas cabinas de peaje con límite de tarifa, pero es posible que el progreso real no se produzca sin mejoras en los recursos informáticos.

Pagando el flautista

Las API públicas de LLM que brindan acceso a modelos de compañías como OpenAI y Anthropic imponen límites estrictos sobre la cantidad de tokens (unidades de texto) que se pueden procesar por minuto, la cantidad de solicitudes por minuto y la cantidad de solicitudes por día. Esta frase, por ejemplo, consumiría nueve fichas.

API Las llamadas al GPT-4 de OpenAI están actualmente limitadas a tres solicitudes por minuto (RPM), 200 solicitudes por día y un máximo de 10,000 tokens por minuto (TPM). El nivel más alto permite límites de 10.000 RPM y 300.000 TPM.

Para aplicaciones de producción más grandes que necesitan procesar millones de tokens por minuto, estos límites de velocidad hacen que el uso de los LLM más avanzados sea esencialmente inviable. Las solicitudes se acumulan y tardan minutos u horas, lo que impide cualquier procesamiento en tiempo real.

La mayoría de las empresas todavía tienen dificultades para adoptar LLM de forma segura y eficaz a escala. Pero incluso cuando resuelven desafíos relacionados con la sensibilidad de los datos y los procesos internos, los límites de velocidad representan un obstáculo persistente. Las empresas emergentes que crean productos en torno a los LLM alcanzan el techo rápidamente cuando se acumulan el uso del producto y los datos, pero las empresas más grandes con grandes bases de usuarios son las más limitadas. Sin un acceso especial, sus aplicaciones no funcionarán en absoluto.

¿Qué hacer?

Rutas alrededor de los límites de velocidad

Un camino es saltarse por completo las tecnologías que limitan la velocidad. Por ejemplo, hay usos específicos. IA generativa Modelos que no vienen con cuellos de botella LLM. Diffblue, una startup con sede en Oxford, Reino Unido, se basa en tecnologías de aprendizaje por refuerzo que no imponen límites de velocidad. Hace una cosa muy bien y de manera muy eficiente y puede cubrir millones de líneas de código. Crea de forma autónoma pruebas unitarias de Java a 250 veces la velocidad de un desarrollador y compila 10 veces más rápido.

Las pruebas unitarias escritas por Diffblue Cover permiten una comprensión rápida de aplicaciones complejas que permiten a las empresas y a las nuevas empresas innovar con confianza, lo cual es ideal para trasladar aplicaciones heredadas a la nube, por ejemplo. También puede escribir código nuevo de forma autónoma, mejorar el código existente, acelerar CI/CD procesos y proporcionan una visión profunda de los riesgos asociados con el cambio sin requerir una revisión manual. Nada mal.

Por supuesto, algunas empresas tienen que depender de los LLM. Qué opciones tienen?

Más cálculo, por favor

Una opción es simplemente solicitar un aumento en los límites de tarifas de una empresa. Esto está bien hasta el momento, pero el problema subyacente es que muchos proveedores de LLM en realidad no tienen capacidad adicional para ofrecer. Éste es el meollo del problema. La disponibilidad de GPU está determinada por la cantidad total de obleas de silicio de fundiciones como TSMC. Nvidia, el fabricante dominante de GPU, no puede adquirir suficientes chips para satisfacer la explosiva demanda impulsada por las cargas de trabajo de IA, donde la inferencia a escala requiere miles de GPU agrupadas.

La forma más directa de aumentar el suministro de GPU es construir nuevas plantas de fabricación de semiconductores, conocidas como fabs. Pero una nueva fábrica cuesta hasta 20.000 millones de dólares y lleva años construirla. Los principales fabricantes de chips como Intel, Samsung Foundry, TSMC y Texas Instruments están construyendo nuevas instalaciones de producción de semiconductores en Estados Unidos. Algún día, eso será increíble. Por ahora, todos deben esperar.

Como resultado, existen muy pocas implementaciones de producción reales que aprovechen GPT-4. Aquellos que lo hacen tienen un alcance modesto y utilizan el LLM para funciones auxiliares en lugar de como un componente central del producto. La mayoría de las empresas todavía están evaluando pilotos y pruebas de concepto. El impulso necesario para integrar los LLM en los flujos de trabajo empresariales es sustancial por sí solo, incluso antes de considerar los límites de tarifas.

buscando respuestas

Las limitaciones de la GPU que limitan el rendimiento de GPT-4 están impulsando a muchas empresas a utilizar otros modelos de IA generativa. AWS, por ejemplo, tiene sus propios chips especializados para entrenamiento e inferencia (ejecutar el modelo una vez entrenado), lo que permite a sus clientes una mayor flexibilidad. Es importante destacar que no todos los problemas requieren los recursos computacionales más potentes y costosos. AWS ofrece una gama de modelos que son más económicos y fáciles de ajustar, como Titan Light. Algunas empresas están explorando alternativas como perfeccionar modelos de código abierto como Meta Llama 2. Para casos de uso simples que involucran generación aumentada de recuperación (RAG) que requieren agregar contexto a un mensaje y generar una respuesta, los modelos menos potentes son suficientes.

También pueden ser útiles técnicas como la paralelización de solicitudes entre varios LLM más antiguos con límites más altos, la fragmentación de datos y la destilación de modelos. Existen varias técnicas que se utilizan para hacer que la inferencia sea más barata y rápida. La cuantificación reduce la precisión de los pesos en el modelo, que normalmente son números de coma flotante de 32 bits. Este no es un enfoque nuevo. Por ejemplo, el hardware de inferencia de Google, las Unidades de procesamiento tensorial (TPU), solo funciona con modelos en los que los pesos se han cuantificado en enteros de ocho bits. El modelo pierde algo de precisión pero se vuelve mucho más pequeño y más rápido de ejecutar.

Una técnica recientemente popular llamada “modelos dispersos” puede reducir los costos de capacitación e inferencia, y requiere menos mano de obra que la destilación. Puede pensar en un LLM como una agregación de muchos modelos lingüísticos más pequeños. Por ejemplo, cuando le haces una pregunta a GPT-4 en francés, solo es necesario utilizar la parte del modelo que procesa el francés, y esto es lo que explotan los modelos dispersos.

Puede realizar un entrenamiento escaso, en el que solo necesita entrenar un subconjunto del modelo en francés, y una inferencia escasa, en la que ejecuta solo la parte del modelo en francés. Cuando se usa con cuantización, esto puede ser una forma de extraer modelos más pequeños de propósito especial de LLM que pueden ejecutarse en CPU en lugar de GPU (aunque con una pequeña penalización en la precisión). ¿El problema? GPT-4 es famoso porque es un generador de texto de uso general, no un modelo más limitado y específico.

En cuanto al hardware, las nuevas arquitecturas de procesadores especializadas para cargas de trabajo de IA prometen ganancias en eficiencia. Cerebras ha creado un gigantesco motor a escala de oblea optimizado para el aprendizaje automático, y Manticore está reutilizando el silicio de GPU «rechazado» desechado por los fabricantes para ofrecer chips utilizables.

En última instancia, las mayores ganancias provendrán de los LLM de próxima generación que requieren menos computación. Combinados con hardware optimizado, los futuros LLM podrían superar las barreras de límite de tarifas actuales. Por ahora, el ecosistema se ve afectado por la carga de empresas ansiosas que se alinean para aprovechar el poder de los LLM. Aquellos que esperan abrir nuevos caminos con la IA tal vez tengan que esperar hasta que los suministros de GPU se abran en el largo camino que queda por recorrer. Irónicamente, estas limitaciones pueden ayudar a moderar parte del revuelo en torno a la IA generativa, dando tiempo a la industria para establecer patrones positivos para usarla de manera productiva y rentable.

Enlace fuente