La mayoría del rendimiento de genAI basado en la nube apesta

me han preguntado si IA generativa Los sistemas siempre son lentos. Por supuesto, respondo: “Lento, ¿en comparación con qué?” La respuesta que siempre recibo es divertida. «Más lento de lo que pensábamos que sería». Y el círculo continúa.

El rendimiento suele ser una ocurrencia tardía en el desarrollo y la implementación de la IA generativa. La mayoría de los que implementan sistemas de IA generativa en la nube, e incluso no en la nube, aún no han aprendido cuál debería ser el rendimiento de sus sistemas de IA generativa, no toman medidas para determinar el rendimiento y terminan quejándose del rendimiento después de la implementación. O, más a menudo, los usuarios se quejan y luego los diseñadores y desarrolladores de IA generativa se quejan conmigo.

Desafíos del rendimiento de la IA generativa

En esencia, los sistemas de IA generativa son sistemas complejos, distribuidos y orientados a datos que resultan difíciles de construir, implementar y operar. Todos son diferentes, con diferentes partes móviles. La mayoría de las partes están distribuidas en todas partes, desde las bases de datos de origen para los datos de entrenamiento hasta los datos de salida y los motores de inferencia centrales que a menudo existen en los proveedores de la nube.

Aquí está mi lista de las dificultades más comunes:

Panoramas de implementación complejos. Los sistemas de IA generativa suelen comprender varios componentes. Incluyen servicios de ingesta de datos, almacenamiento, informática y redes. Diseñar estos componentes para que funcionen de manera sinérgica a menudo conduce a una complejidad excesiva, donde los problemas de rendimiento, determinados por los componentes de menor rendimiento, son diferentes de los aislados. He visto redes con bajo rendimiento y bases de datos saturadas. Esas cosas no están directamente relacionadas con la IA generativa, pero de todos modos pueden causar problemas de rendimiento.

Ajuste del modelo de IA. El rendimiento no es únicamente una función de la infraestructura, conclusión a la que muchos llegan. Los modelos de IA deben ajustarse y optimizarse, lo que requiere una profunda experiencia técnica que pocos tienen.

Los proveedores podrían haber hecho un mejor trabajo estableciendo las mejores prácticas en el ajuste del rendimiento. A muchas empresas les preocupa que puedan empeorar las cosas o introducir problemas que provoquen resultados erróneos. Esto no se puede ignorar y, dependiendo del tipo de sistema de IA generativa en el que esté trabajando en la nube, debe resolverlo trabajando con los proveedores de servicios de IA generativa.

Preocupaciones de seguridad. Es evidente que proteger los modelos de IA y sus datos contra accesos no autorizados e infracciones, especialmente en entornos de nube donde la tenencia múltiple es común. Demasiados problemas de rendimiento plantean riesgos de seguridad.

En muchos casos, los mecanismos de seguridad, como el cifrado, introducen problemas de rendimiento que, si no se resuelven, empeorarán a medida que crezcan los datos. La arquitectura y las pruebas son tus amigos aquí. Tómese un tiempo para comprender cómo la seguridad afecta el rendimiento de la IA generativa.

Cumplimiento normativo. Relacionado con la seguridad está el cumplimiento de los estándares de cumplimiento y gobernanza de datos. Pueden imponer capas adicionales de complejidad en la gestión del desempeño.

Al igual que la seguridad, debemos descubrir cómo trabajar con estos requisitos. La mayoría de las veces, podemos encontrar un punto medio para brindar el cumplimiento que necesitamos. Al igual que con el rendimiento optimizado, sólo se necesita algo de prueba y error.

Mejores prácticas de IA generativa

Recuerde que si enumero las mejores prácticas aquí, son holísticas. No consideran el tipo específico de sistemas de IA generativa que se están ejecutando, todos los cuales tienen componentes y consideraciones de plataforma muy diferentes. Tendrá que consultar con su proveedor de IA generativa específico cómo se llevan a cabo para sus casos de uso particulares. Dada esa advertencia, aquí hay algunos a considerar:

Implementar automatización para el escalado y la optimización de recursos, o autoescalado, que ofrecen los proveedores de la nube. Esto incluye el uso operaciones de aprendizaje automático (MLOps) Técnicas y enfoques para operar modelos de IA.

Utilizar informática sin servidor, que abstrae la gestión de la infraestructura. Esto significa que ya no debes asignar los recursos que necesitará tu IA generativa; se hace automáticamente. Aunque no siempre estoy de acuerdo con entregar las llaves a un proceso automatizado que asignará recursos por los que tenemos que pagar, dadas todas las otras cosas de las que debes preocuparte, esto es una cosa menos de qué preocuparte.

Realizar pruebas de carga periódicas y evaluaciones de rendimiento.. Asegúrese de que sus sistemas de IA generativa puedan manejar las demandas máximas. La mayoría se salta esto y adivina cuánta carga habrá en la parte superior de la curva. ¿Puedes decir «apagón»?

Emplear un enfoque de aprendizaje continuo. Los modelos de IA deben actualizarse periódicamente con nuevos datos y perfeccionarse para mantener el rendimiento y la relevancia.

Aproveche la experiencia y el soporte de los proveedores de servicios en la nube. Además, asegúrese de monitorear las comunidades en línea que respaldan su tecnología específica. Allí encontrará muchas respuestas que los consultores que ganan 700 dólares la hora no podrán proporcionarle.

Sospecho que el rendimiento de la IA generativa se convertirá en un área de mayor atención que en la actualidad. Quizás debería serlo, dada la cantidad de recursos y dinero en efectivo que estamos concentrando en este espacio en expansión.

Enlace fuente