Qué significan los crecientes conjuntos de datos de IA para la ingeniería y gestión de datos

Desde los chatbots de principios de la década de 2000 hasta el último modelo GPT-4, IA generativa continúa impregnando las vidas de los trabajadores tanto dentro como fuera de la industria tecnológica. Con gigantes como Microsoft, Google y Amazon invirtiendo millones en I+D para sus soluciones de IA, no sorprende que la adopción global de tecnologías de IA más del doble entre los años 2017 y 2022.

Entonces, ¿qué ha cambiado exactamente en los últimos cinco años de desarrollo de la IA? Desde una perspectiva de ingeniería, los avances de la IA generalmente se han clasificado en tres categorías:

Modelos: El cambio más evidente que hemos visto está en el desarrollo de modelos de transformadores y, posteriormente, en la evolución de modelos a gran escala como GPT-3 y GPT-4. Limitaciones de escalabilidad en la formación. procesamiento natural del lenguaje (NLP) se superan mediante la paralelización y el mecanismo de atención de los modelos transformadores, que tiene en cuenta el contexto y prioriza diferentes partes de una secuencia de entrada.
Herramientas de gestión: El campo de la ingeniería de datos ha evolucionado para dar cuenta de conjuntos de datos de rápida ampliación y soluciones avanzadas. aprendizaje reforzado algoritmos. Es decir, se están aprovechando canales de datos más sofisticados para recopilar, limpiar y utilizar datos. También vemos el surgimiento de aprendizaje automático (autoML) herramientas que automatizan varios aspectos del desarrollo de modelos, incluida la selección de características, el ajuste de hiperparámetros y el concepto de operaciones de aprendizaje automático (MLOps). MLOps presenta soluciones para una mejor supervisión, gestión y control de versiones de los modelos para facilitar la mejora continua de los modelos implementados.
Computación y almacenamiento: Como era de esperar, los modelos y herramientas más avanzados requieren hardware mejorado para acelerar el procesamiento de datos, incluidas GPU y TPU. Los datos, por supuesto, necesitan un lugar donde vivir, por lo que están surgiendo soluciones mejoradas de almacenamiento de datos para manejar y analizar grandes cantidades de datos.

Con más datos de entrenamiento disponibles que nunca, la IA y aprendizaje automático debiera ser más eficaz que nunca. Entonces, ¿por qué los ingenieros de datos y los tomadores de decisiones siguen luchando con la calidad de los datos y el rendimiento del modelo?

De la escasez de datos a la abundancia

Inicialmente, el principal desafío en el desarrollo de la IA era la escasez de datos. Era difícil conseguir datos adecuados, relevantes y diversos, y estas limitaciones a menudo obstaculizaban el desarrollo de la IA.

En los últimos cinco años, las iniciativas de datos abiertos y la recopilación automatizada de datos se han disparado. Estos, entre otras cosas, crearon una afluencia de datos disponibles para la IA y, por lo tanto, transformaron las limitaciones anteriores en una paradoja de la abundancia. La información de código abierto y los conjuntos de datos mejorados por IA aprovechados para abordar las lagunas de datos han presentado a los ingenieros desafíos únicos e inesperados. Si bien la disponibilidad de una gran cantidad de datos es crucial para avanzar en la IA generativa, al mismo tiempo ha introducido una serie de problemas y complejidades imprevistos.

¿Más datos, más problemas?

Grandes cantidades de datos disponibles ya no son puramente beneficiosos y, de hecho, es posible que ya no sean la solución. la mejor manera de mejorar la IA. Los grandes conjuntos de datos vienen inherentemente con volúmenes sustanciales de datos, que a menudo van desde terabytes hasta petabytes o más. La gestión, el almacenamiento y el procesamiento de volúmenes tan grandes de datos requieren soluciones de ingeniería sofisticadas, como sistemas informáticos distribuidos, soluciones de almacenamiento escalables y marcos de procesamiento de datos eficientes.

Además del volumen, los ingenieros también luchan con la alta velocidad a la que suelen generarse, procesarse y analizarse los conjuntos de datos. Esta mayor velocidad y la complejidad de los grandes conjuntos de datos (incluidas estructuras anidadas, alta dimensionalidad y relaciones intrincadas) exigen técnicas sofisticadas de modelado, transformación y análisis de datos.

Los desafíos de los grandes conjuntos de datos

Este acto de equilibrio casi imposible, como era de esperar, presenta una gran cantidad de problemas para los ingenieros. Los ejecutivos de tecnología informan ampliamente sobre los siguientes desafíos que surgen a medida que crecen sus conjuntos de datos:

Sobrecarga de información: El gran volumen de datos puede resultar abrumador. Con grandes conjuntos de datos, rápidamente resulta difícil identificar información relevante o valiosa. Este problema se extiende hasta el final, donde los datos irrelevantes o ambiguos dificultan la extracción de información significativa.
Mayor complejidad: Más datos a menudo significa lidiar con conjuntos de datos complejos y de alta dimensión que requieren un desarrollo y una optimización sofisticados (y computacionalmente intensivos).
Disminución de la calidad: Cuando grandes conjuntos de datos introducen ambigüedad o complejidad, los modelos tienden a compensar mediante un sobreajuste. El sobreajuste ocurre cuando un modelo aprende demasiado bien los datos de entrenamiento, incluido su ruido y valores atípicos, hasta el punto de que ya no produce resultados precisos para datos invisibles. Básicamente, el modelo comienza a memorizar en lugar de aprender, lo que hace extremadamente difícil garantizar la calidad y precisión de los datos.
Nuevas limitaciones de recursos: A pesar de los avances computacionales realizados en el sector de la IA, las empresas continúan enfrentando limitaciones de recursos al entrenar modelos. Los tiempos de formación más prolongados exigen una potencia de procesamiento y almacenamiento adecuados, lo que plantea desafíos logísticos y financieros para los desarrolladores e investigadores. Quizás de manera menos obvia, los avances en la IA también presentan desafíos centrados en el ser humano, incluida una creciente brecha de habilidades para los profesionales que pueden gestionar big data y sistemas de IA.

El volumen, la velocidad, la variedad y la complejidad de grandes conjuntos de datos requieren soluciones avanzadas de ingeniería de datos. Cuando se lucha por la calidad frente a las limitaciones de recursos, la gestión de datos es la única forma de garantizar un modelo de datos eficaz, eficiente y seguro.

Repensar los conjuntos de datos para el entrenamiento de IA

Ahora más que nunca, los grandes conjuntos de datos de entrenamiento requieren soluciones avanzadas de ingeniería de datos. Una gestión adecuada de los datos puede combatir muchos problemas de calidad de los datos, desde la inconsistencia hasta el rendimiento del modelo.

Pero ¿qué pasa si la mejor manera de gestionar grandes conjuntos de datos es hacerlos más pequeños? Actualmente hay un movimiento en marcha para utilizar conjuntos de datos más pequeños al desarrollar grandes modelos de lenguaje (LLM) para promover una mejor representación de características y mejorar la generalización del modelo. Los conjuntos de datos más pequeños seleccionados pueden representar características relevantes de manera más distintiva, reducir el ruido y mejorando así la precisión del modelo. Cuando se enfatizan de esta manera las características representativas, los modelos también tienden a generalizarse mejor.

Los conjuntos de datos más pequeños también desempeñan un papel crucial en la regularización, una técnica utilizada para evitar el sobreajuste en los modelos de aprendizaje automático, lo que permite que los modelos generalicen mejor los datos invisibles. Dicho esto, los conjuntos de datos más pequeños conllevan un mayor riesgo de sobreajuste, especialmente con modelos complejos. Por lo tanto, la regularización se vuelve crucial para garantizar que el modelo no se ajuste demasiado a los datos de entrenamiento y pueda generalizarse bien a datos nuevos.

Como es de esperar, la precisión de los datos es aún más crítica con conjuntos de datos más pequeños. Además de normalizar y equilibrar los datos, los ingenieros deben garantizar una validación adecuada del modelo y, a menudo, optan por revisar el modelo en sí. Técnicas como árboles de decisión de podausando abandono en redes neuronalesy la validación cruzada se pueden emplear para generalizar mejor los datos. Pero al final del día, la calidad de los datos de entrenamiento seguirá influyendo en tus resultados.

Cambiar el enfoque hacia la curación y la gestión

Los gerentes y líderes de ingeniería deberían cambiar el enfoque ahora hacia la curación y gestión de conjuntos de datos para maximizar la variedad y relevancia de los datos y minimizar el ruido. Un conjunto de datos bien administrado no solo contribuye a una mejor capacitación de modelos, sino que también fomenta la innovación al permitir a investigadores y desarrolladores explorar nuevos modelos y técnicas. Las empresas que puedan gestionar los datos de forma eficaz y garantizar su calidad pueden obtener una ventaja competitiva desarrollando modelos de IA superiores. Estos modelos no sólo aumentan la satisfacción del cliente, sino que también respaldan mejores procesos de toma de decisiones a nivel ejecutivo.

La paradoja de la abundancia presenta los riesgos y desafíos inherentes que plantea tanta información disponible. La IA generativa está cambiando su enfoque hacia la gestión y el procesamiento. Por este motivo, recurrimos a soluciones integrales de observabilidad y análisis. Con las herramientas adecuadas, los ingenieros de datos y los tomadores de decisiones pueden desarrollar modelos más significativos, independientemente del tamaño de los conjuntos de datos con los que trabajan.

Ashwin Rajeeva es cofundador y director de tecnología de Accedido.

—

Generative AI Insights proporciona un lugar para que los líderes tecnológicos, incluidos proveedores y otros contribuyentes externos, exploren y discutan los desafíos y oportunidades de la inteligencia artificial generativa. La selección es amplia, desde análisis profundos de tecnología hasta estudios de casos y opiniones de expertos, pero también subjetiva, basada en nuestro juicio sobre qué temas y tratamientos servirán mejor a la audiencia técnicamente sofisticada de InfoWorld. InfoWorld no acepta garantías de marketing para su publicación y se reserva el derecho de editar todo el contenido aportado. Contacto doug_dineley@foundryco.com.

Enlace fuente