¿Crear un LLM interno es adecuado para su organización?

Los líderes empresariales han estado bajo presión para encontrar la mejor manera de incorporar IA generativa en sus estrategias para obtener los mejores resultados para su organización y sus partes interesadas. Según Gartner, el 38% de los líderes empresariales señalaron que la experiencia y la retención del cliente son el objetivo principal de sus inversiones en genAI, lo que las hace esenciales para el futuro de sus negocios. Sin embargo, por muy atractivo que parezca, es importante considerar si LLM (grandes modelos de lenguaje) son adecuados para su negocio antes de desarrollar su estrategia de IA.

Si bien generalmente están disponibles y son de fácil acceso inmediato, existen desafíos en el uso eficaz de los LLM disponibles en el mercado. Estos incluyen una experiencia del cliente demasiado generalizada que carece del contexto de la industria, un mayor costo de subcontratar modelos integrados y preocupaciones de privacidad debido al intercambio de datos externamente. Capacitación interna tienes un modelo puede abordar directamente estas inquietudes y, al mismo tiempo, inspirar creatividad e innovación dentro del equipo para utilizar el modelo para otros proyectos. Una vez que decida que necesita una IA de dominio específico, aquí hay cinco preguntas clave que debe hacerse antes de emprender el viaje para crear su propio modelo interno.

Pregunta 1: ¿Cuál es el problema empresarial y cómo puede resolverlo la IA?

Antes de profundizar en el mundo de los modelos fundamentales y los LLM, dé un paso atrás y observe el problema que busca resolver. Una vez que identifique esto, es importante determinar qué tareas de lenguaje natural necesita. Ejemplos de estas tareas incluyen resumen, reconocimiento de entidades nombradas, similitud textual semántica y respuesta a preguntas, entre otras.

Una tarea posterior y el conocimiento del dominio son manzanas y naranjas, y es importante conocer la diferencia. A pesar de su popularidad, los modelos LLM como GPT, Llamay Palmera solo son apropiados para tareas posteriores (como responder preguntas y resumir) con pocas indicaciones o ajustes adicionales. Aunque los modelos fundamentales pueden funcionar bien en un contexto más amplio, carecen de la experiencia en el sector o en el dominio específico del negocio necesaria para ser útiles en la mayoría de las aplicaciones. Lograr excelentes resultados en tareas posteriores no significa que también tendrá conocimiento de dominio para su industria específica.

Pregunta 2: ¿Existen ya herramientas de IA específicas de la industria disponibles?

Como parte de la fase de investigación de su estrategia de IA, es importante evaluar de cerca las herramientas existentes, porque algunas de ellas podrían ser específicas de la industria pero aún omiten matices específicos para su negocio. Al auditar las herramientas disponibles, concéntrese en garantizar que el modelo de IA pueda comprender el contexto, así como las palabras en el idioma de su elección para captar mejor las indicaciones y generar respuestas relevantes para su usuario.

En nuestro caso, después de realizar investigaciones y pruebas, descubrimos que no existía un LLM sólido en ciberseguridad específicamente para riesgos de terceros. Por eso, nuestro equipo seleccionó un modelo basado en BERT para ajustar la ciberseguridad hace dos años.

Además, mientras construíamos nuestro modelo de IA, notamos que los resultados caían constantemente dentro de un rango específico mientras analizamos varios textos dentro del dominio de la ciberseguridad. El modelo base que empleamos percibió el texto como homogéneo, atribuyendo la similitud a su origen dentro del mismo dominio. Trabajamos duro para brindarle contexto y matices de la industria de la ciberseguridad, lo que ayudó a resolver nuestro problema de falta de conocimiento del dominio.

El contexto también es esencial porque aún hoy, genAI puede alucinar sobre asuntos específicos y no se debe confiar al 100% tal como está. Esta es una de las muchas razones por las que la Administración Biden-Harris emitió una orden ejecutiva sobre IA segura, protegida y confiable. Antes de utilizar una herramienta de IA como servicio, las agencias gubernamentales deben asegurarse de que el servicio que están utilizando sea seguro y confiable, lo que generalmente no es obvio y no se capta con solo mirar un conjunto de resultados de ejemplo. Y aunque la orden ejecutiva no se aplica a las empresas del sector privado, estas organizaciones deberían tener esto en cuenta si adoptan políticas similares.

Aunque el proceso de capacitación y ajuste que implica un modelo interno incluirá pruebas exhaustivas, identificación de debilidades y análisis del modelo y será bastante largo, a la larga valdrá la pena.

Pregunta 3: ¿Están listos sus datos?

Los datos de su organización son el activo más importante a evaluar antes de formar su propio LLM. Aquellas empresas que han acumulado datos de alta calidad a lo largo del tiempo son las más afortunadas en la era actual de LLM, ya que se necesitan datos en casi cada paso del proceso, incluida la capacitación, las pruebas, la recapacitación y las pruebas beta. Los datos de alta calidad son la clave del éxito en la formación de un LLM, por lo que es importante considerar lo que eso realmente significa. La respuesta ciertamente cambia según la tarea y el dominio, pero una regla general es que los datos necesitan una curación mínima y menos reentrenamiento.

Una vez que las empresas comienzan el viaje para formar un LLM, normalmente descubren que sus datos no están listos de varias maneras. Los datos podrían resultar demasiado ruidosos o estar etiquetados de manera ineficaz debido a una mala selección de expertos o al tiempo limitado asignado a los expertos. O los datos podrían incluir repeticiones ocultas que proporcionen un valor mínimo o nulo al proceso de entrenamiento y no representen el dominio o la tarea por completo, lo que puede provocar que el modelo de IA resultante se sobreadapte.

Es importante anticipar que los datos podrían convertirse fácilmente en el cuello de botella de su proyecto, ya que es el que lleva más tiempo organizarlo. Incluso podrían pasar años antes de que los datos estén realmente preparados para la IA.

Pregunta 4: ¿Tiene suficientes expertos disponibles para entrenar modelos de IA?

Los expertos desempeñan un papel importante en la generación de datos y en la determinación de su calidad. ¿Por qué? Porque todavía necesitamos humanos para generar datos confiables que se utilizarán en el proceso de capacitación. Existen conjuntos de datos generados sintéticamente, pero no son útiles a menos que sean evaluados y calificados por expertos humanos.

Al seleccionar a su experto, seleccione a alguien con un profundo conocimiento de la industria para ajustar su modelo (ya sea un experto interno o un experto subcontratado). Más específicamente, necesitará expertos para etiquetar datos, brindar comentarios sobre los datos, probarlos y volver a capacitarse en función de los comentarios. Esta es una parte importante del proceso para obtener resultados precisos y confiables con su modelo de IA entrenado.

Pregunta 5: ¿Cuáles son sus limitaciones de tiempo?

Entrenar un modelo de IA interno es un proceso largo y costoso. El problema empresarial, la calidad de los datos disponibles y la cantidad de expertos e ingenieros de IA involucrados afectan la duración y la calidad del proyecto. Debido a que el proceso se basa en prueba y error, es inherentemente un tiempo más largo antes de que la solución esté lista para su uso.

Además de los problemas que podrían surgir de los datos, existen otros desafíos que pueden surgir al establecer los hiperparámetros del algoritmo de entrenamiento, como la tasa de aprendizaje, la cantidad de épocas y la cantidad de capas. Este es el punto en el que los expertos en IA podrían necesitar una reingeniería para abordar problemas de sobreajuste y olvido catastrófico que serán evidentes en las fases de prueba, lo que puede costarle tiempo adicional al proyecto.

Aunque un proceso cuidadosamente pensado reducirá el estrés, siempre existe el riesgo de que surja una nueva solución LLM y deje su solución obsoleta. Esto se reduce a la especificidad y los nichos de su dominio. Buscar un equilibrio entre tiempo y calidad, dado el rápido ritmo de desarrollo de la tecnología de IA.

Como ocurre con muchas soluciones innovadoras, no existe un enfoque único que sirva para todos. Sopesar sus opciones con respecto al modelo adecuado para su negocio es el primer paso al iniciar el viaje hacia la IA de su empresa. Para los líderes empresariales, formar un LLM desde cero puede parecer desalentador, pero si tiene datos disponibles y un “problema empresarial” específico de un dominio que un LLM genérico no resolverá, valdrá la pena la inversión a largo plazo.

Gokcen Tapkan es director de investigación de datos en Milano negro.

—

Generative AI Insights proporciona un lugar para que los líderes tecnológicos, incluidos proveedores y otros contribuyentes externos, exploren y discutan los desafíos y oportunidades de la inteligencia artificial generativa. La selección es amplia, desde análisis profundos de tecnología hasta estudios de casos y opiniones de expertos, pero también subjetiva, basada en nuestro juicio sobre qué temas y tratamientos servirán mejor a la audiencia técnicamente sofisticada de InfoWorld. InfoWorld no acepta garantías de marketing para su publicación y se reserva el derecho de editar todo el contenido aportado. Contacto doug_dineley@foundryco.com.

Enlace fuente