Se marcó el comienzo del lanzamiento de ChatGPT en la era de los grandes modelos lingüísticos. Además de las ofertas de OpenAI, otros LLM incluyen la familia de LLM LaMDA de Google (incluido Bard), el proyecto BLOOM (una colaboración entre grupos de Microsoft, Nvidia y otras organizaciones), LLaMA de Meta y Claude de Anthropic.
Sin duda se crearán más. De hecho, un Abril 2023 Encuesta Arize encontró que el 53% de los encuestados planeaba implementar LLM dentro del próximo año o antes. Una forma de hacerlo es crear un LLM “vertical” que comience con un LLM existente y lo vuelva a capacitar cuidadosamente en conocimientos específicos de un dominio en particular. Esta táctica puede funcionar en ciencias biológicas, productos farmacéuticos, seguros, finanzas y otros sectores empresariales.
Implementar un LLM puede proporcionar una poderosa ventaja competitiva, pero sólo si se hace bien.
Los LLM ya han dado lugar a problemas de interés periodístico, como su tendencia a «alucinar» información incorrecta. Ése es un problema grave y puede distraer al liderazgo de preocupaciones esenciales con los procesos que generan esos resultados, que pueden ser igualmente problemáticos.
Los desafíos de formar e implementar un LLM
Un problema con el uso de LLM es su enorme gasto operativo porque la demanda computacional para entrenarlos y ejecutarlos es muy intensa (no en vano se les llama modelos de lenguaje grandes).
Los LLM son apasionantes, pero desarrollarlos y adoptarlos requiere superar varios obstáculos de viabilidad.
Primero, el hardware para ejecutar los modelos es costoso. El GPU H100 de Nvidiauna opción popular para los LLM, se ha estado vendiendo en el mercado secundario durante aproximadamente $40,000 por chip. Una fuente estimó que tomaría aproximadamente 6.000 fichas para entrenar un LLM comparable a ChatGPT-3.5. Eso es aproximadamente 240 millones de dólares sólo en GPU.
Otro gasto importante es alimentar esos chips. Se estima que simplemente entrenar un modelo requiere aproximadamente 10 gigavatios-hora (GWh) de energía, equivalente al consumo eléctrico anual de 1.000 hogares estadounidenses. Una vez entrenado el modelo, su costo de electricidad variará pero puede llegar a ser exorbitante. Esa fuente estimó que el consumo de energía para hacer funcionar ChatGPT-3.5 es de aproximadamente 1 GWh por día, o el uso diario combinado de energía de 33.000 hogares.
El consumo de energía también puede ser un obstáculo potencial para la experiencia del usuario cuando ejecuta LLM en dispositivos portátiles. Esto se debe a que el uso intensivo de un dispositivo podría agotar su batería muy rápidamente, lo que sería una barrera importante para la adopción por parte de los consumidores.