3 secretos para implementar LLM en plataformas en la nube

En los últimos dos años, he estado involucrado con IA generativa proyectos usando grandes modelos de lenguaje (LLM) más que los sistemas tradicionales. Me he vuelto nostálgico por la computación en la nube sin servidor. Sus aplicaciones van desde mejorar la IA conversacional hasta proporcionar soluciones analíticas complejas en todas las industrias y muchas funciones más. Muchas empresas implementan estos modelos en plataformas de nube porque existe un ecosistema ya preparado de proveedores de nube pública y es el camino de menor resistencia. Sin embargo, no es barato.

Las nubes también ofrecen otros beneficios como escalabilidad, eficiencia y capacidades computacionales avanzadas (GPU bajo demanda). El proceso de implementación de LLM en plataformas de nube pública tiene secretos menos conocidos que pueden afectar significativamente el éxito o el fracaso. Quizás porque no hay muchos expertos en IA que puedan ocuparse de los LLM, y porque no hemos estado haciendo esto durante mucho tiempo, existen muchas lagunas en nuestro conocimiento.

Exploremos tres «consejos» menos conocidos para implementar LLM en las nubes que quizás ni siquiera sus ingenieros de IA conozcan. Teniendo en cuenta que muchos de esos chicos y chicas ganan más de 300.000 dólares, tal vez sea hora de preguntarles sobre los detalles de cómo hacer bien estas cosas. Veo más errores que nunca mientras todos corren hacia la IA generativa como si tuvieran el pelo en llamas.

Gestión de la rentabilidad y la escalabilidad

Uno de los principales atractivos del uso de plataformas en la nube para implementar LLM es la capacidad de escalar los recursos según sea necesario. No tenemos que ser buenos planificadores de capacidad porque las plataformas en la nube tienen recursos que podemos asignar con un clic del mouse o de forma automática.

Pero espera, estamos a punto de cometer los mismos errores que cometimos cuando usamos por primera vez. computación en la nube. Gestionar los costos mientras se escala es una habilidad con la que muchos necesitan ayuda para navegar de manera efectiva. Recuerde, los servicios en la nube a menudo cobran según los recursos informáticos consumidos; funcionan como una utilidad. Cuanto más procesas, más pagas. Teniendo en cuenta que las GPU costarán más (y consumirán más energía), esta es una preocupación fundamental para los LLM en proveedores de nube pública.

Asegúrese de utilizar herramientas de gestión de costos, tanto las proporcionadas por las plataformas en la nube como las ofrecidas por actores sólidos de monitoreo y gobernanza de costos de terceros (finops). Algunos ejemplos serían implementar escalado y programación automáticos, elegir tipos de instancias adecuados o usar instancias interrumpibles para optimizar costos. Además, recuerde monitorear continuamente la implementación para ajustar los recursos según el uso en lugar de simplemente usar la carga prevista. Esto significa evitar el aprovisionamiento excesivo a toda costa (¿ves lo que hice allí?).

Privacidad de datos en entornos multiinquilino

La implementación de LLM a menudo implica procesar grandes cantidades de datos y modelos de conocimiento capacitados que pueden contener datos confidenciales o de propiedad exclusiva. El riesgo de utilizar nubes públicas es que tiene vecinos en forma de instancias de procesamiento que operan en el mismo hardware físico. Por lo tanto, las nubes públicas conllevan el riesgo de que, a medida que se almacenan y procesan los datos, de alguna manera otra máquina virtual que se ejecuta en el mismo hardware físico en el centro de datos de la nube pública acceda a ellos.

Pregunte a un proveedor de nube pública sobre esto y correrán a obtener sus presentaciones de PowerPoint actualizadas, que demostrarán que esto no es posible. Si bien esto es cierto en gran medida, no es del todo exacto. Todos los sistemas multiinquilino conllevan este riesgo; necesitas mitigarlo. He descubierto que cuanto más pequeño sea el proveedor de la nube, como muchos que operan en un solo país, es más probable que esto sea un problema. Esto es para almacenamiento de datos y LLM.

El secreto es seleccionar proveedores de nube que cumplan con estrictos estándares de seguridad que puedan demostrar: cifrado en reposo y en tránsito, gestión de identidad y acceso (IAM) y políticas de aislamiento. Por supuesto, es una idea mucho mejor que implemente su estrategia de seguridad y su pila de tecnología de seguridad para garantizar que el riesgo sea bajo con el uso multiinquilino de LLM en las nubes.

Manejo de la implementación del modelo con estado

Los LLM son en su mayoría con estado, lo que significa que mantienen información de una interacción a la siguiente. Este viejo truco proporciona un nuevo beneficio: la capacidad de mejorar la eficiencia en escenarios de aprendizaje continuo. Sin embargo, gestionar el estado de estos modelos en entornos de nube, donde las instancias pueden ser efímeras o sin estado por diseño, es complicado.

Herramientas de orquestación como Kubernetes que admiten implementaciones con estado son útiles. Pueden aprovechar las opciones de almacenamiento persistente para los LLM y configurarse para mantener y operar su estado en todas las sesiones. Necesitará esto para respaldar la continuidad y el desempeño del LLM.

Con la explosión de la IA generativa, la implementación de LLM en plataformas en la nube es una conclusión inevitable. Para la mayoría de las empresas, es demasiado conveniente no para usar la nube. Mi temor con esta próxima carrera loca es que nos perdamos cosas que son fáciles de abordar y que cometamos errores enormes y costosos que, al final del día, en su mayoría eran evitables.

Enlace fuente