Recientemente tuve en mente la gobernanza de datos, así que decidí consultar ChatGPT ingresando el mensaje: «¿Qué es la gobernanza de datos?» La IA respondió: «La gobernanza de datos es un conjunto de procesos, políticas, estándares y directrices que garantizan que los datos se gestionen, protejan y utilicen adecuadamente dentro de una organización». Es un buen comienzo y hay mucho más que decir sobre la gobernanza de datos y su significado en este momento.
Gobernanza de datos en la era de la IA generativa
Dato de governancia cubre una variedad de disciplinas, incluida la seguridad de datos, la gestión, la calidad y la catalogación. La práctica requiere definir políticas de uso, crear fuentes de datos maestros, crear perfiles de conjuntos de datos, documentar diccionarios y supervisar los ciclos de vida de los datos. Un modelo organizacional a menudo define roles para los director de datos facilitar una estrategia, propietarios de datos que establecen políticas sobre conjuntos de datos y administradores de datos responsables de mejorar la calidad de los datos.
«La gobernanza de datos es un elemento crítico de la integridad de los datos, lo que permite a las organizaciones encontrar, comprender y aprovechar fácilmente datos críticos, lo que lleva a informes precisos y decisiones informadas», dice Tendü Yogurtçu, PhD, director de tecnología de Precisamente. «Proporciona una comprensión del significado, el linaje y el impacto de los datos, para que las empresas puedan cumplir con las normas y garantizar que los modelos de IA estén alimentados con datos confiables para obtener resultados confiables».
Yogurtçu dice que la gobernanza de datos alguna vez fue una tarea técnica centrada en el cumplimiento. «Con una mayor adopción de la IA, los datos se han convertido en el activo corporativo más vital, y la gestión de datos debería ser una prioridad en toda la empresa», afirma.
Para muchas organizaciones que experimentan con genAI o crean aplicaciones con grandes modelos de lenguaje (LLM), existen mayores responsabilidades de gobernanza de datos, Más riesgos derivados de la forma en que los empleados utilizan las herramientas de inteligencia artificial.y nuevo alcance a partir de datos no estructurados. Consulté con varios expertos sobre cómo debe evolucionar la gobernanza de datos para aprovechar las oportunidades y riesgos inherentes a las herramientas y capacidades de IA generativa.
Cuatro formas de evolucionar la gobernanza de datos para genAI
- Revisar las políticas de datos para su uso en herramientas genAI y LLM
- Acelerar las iniciativas de calidad de datos
- Revisar la gestión de datos y las arquitecturas de canalización.
- Amplíe la gobernanza de datos a los flujos de trabajo genAI
Revisar las políticas de datos para su uso en herramientas genAI y LLM
Los departamentos de gobierno de datos supervisan catálogos de datos y comunicar políticas de uso de datos para ayudar a los empleados a aprovechar conjuntos de datos centralizados y utilizarlos para crear modelos de aprendizaje automático, paneles y otras herramientas de análisis. Estos departamentos ahora están actualizando las políticas para incluir si se utilizan y cómo se utilizan fuentes de datos empresariales en LLM y herramientas genAI abiertas. Los desarrolladores y científicos de datos deben revisar estas políticas y consultar con los propietarios de los datos cualquier pregunta sobre el uso de conjuntos de datos para respaldar la experimentación genAI.
«Dado que la IA generativa aporta una mayor complejidad a los datos, las organizaciones deben contar con una buena gobernanza de datos y políticas de privacidad para gestionar y proteger el contenido utilizado para entrenar estos modelos», afirma Kris Lahiri, cofundador y director de seguridad de egnita. «Las organizaciones deben prestar especial atención a los datos que se utilizan con estas herramientas de IA, ya sean terceros como OpenAI, PaLM o un LLM interno que la empresa pueda utilizar internamente».
Revisar las políticas de genAI en torno a la privacidad, la protección de datos y el uso aceptable. Muchas organizaciones requieren el envío de solicitudes y aprobaciones de los propietarios de datos antes de utilizar conjuntos de datos para casos de uso de genAI. Consulte con las funciones legales, de riesgo y de cumplimiento antes de utilizar conjuntos de datos que deban cumplir con GDPR, CCPA, PCI, HIPAA u otros estándares de cumplimiento de datos.
Las políticas de datos también deben considerar la cadena de suministro de datos y las responsabilidades cuando se trabaja con fuentes de datos de terceros. «Si ocurre un incidente de seguridad que involucra datos que están protegidos dentro de una determinada región, los proveedores deben tener claras sus responsabilidades y las de sus clientes para mitigarlo adecuadamente, especialmente si estos datos están destinados a ser utilizados en plataformas AI/ML», dice. Jozef de Vries, director de ingeniería de productos de EDB.
Para aquellos entusiasmados con las oportunidades de genAI, es importante tener una mentalidad de dar lo primero y comprender las políticas de cumplimiento, seguridad y privacidad de datos de su organización.
Acelerar las iniciativas de calidad de datos
Muchas empresas ofrecen soluciones de calidad de datos, incluidas Attacama, Collibra, Experian, IBM, Informatica, Precisely, SAP, SAS y Talend. El Tamaño del mercado global de herramientas de calidad de datos estaba valorada en más de 4 mil millones de dólares en 2022 y se espera que crezca un 17,7% anual. Espero un mayor crecimiento ahora que muchas empresas están experimentando con herramientas de inteligencia artificial y LLM.
«Dado que la inteligencia artificial es tan buena como los datos que la alimentan, los numerosos desafíos de trabajar con IA están relacionados con la calidad de los datos», afirma Mateusz Krempa, director de operaciones de PiwikPro. «La mala calidad de los datos puede dar lugar a conocimientos engañosos o erróneos, lo que afecta gravemente a los resultados».
Krempa dice que los desafíos en la calidad de los datos surgen del volumen, la velocidad y la variedad del big data, especialmente porque los LLM ahora aprovechan las fuentes de datos no estructurados de la organización. Las empresas que deseen desarrollar LLM internos deberán ampliar las iniciativas de calidad de datos para incluir información extraída de documentos, herramientas de colaboración, repositorios de códigos y otras herramientas que almacenen conocimiento empresarial y propiedad intelectual.
«La gobernanza de datos está cambiando de rumbo no solo para alimentar los sistemas LLM con toneladas de datos, sino también para hacerlo de manera inteligente y segura», dice Karen Meppen, líder de gobernanza de datos en hakkoda. «La atención se centra en garantizar que los datos no sólo sean grandes, sino también inteligentes: precisos, comprensibles, conscientes de la privacidad, seguros y respetuosos de los riesgos e impactos de la propiedad intelectual y la equidad».
La calidad de los datos se puede mejorar utilizando diferentes herramientas, según los objetivos comerciales y los tipos de datos.
- Calidad de datos tradicional Las herramientas pueden deduplicar, normalizar campos de datos, validar datos según reglas comerciales, detectar anomalías y calcular métricas de calidad.
- Gestión de datos maestros Las herramientas (MDM) ayudan a las organizaciones a conectar múltiples fuentes de datos y crear una fuente de verdad en torno a entidades comerciales como clientes y productos.
- Plataformas de datos de clientes (CDP) son herramientas especializadas para centralizar la información del cliente y permitir el marketing, las ventas, el servicio al cliente y otras interacciones con el cliente.
Espere actualizaciones y nuevas herramientas de calidad de datos para mejorar el soporte para fuentes de datos no estructurados y aumentar las capacidades de calidad de datos para casos de uso de genAI.
Otra recomendación de Graeme Cantu-Park, CISO de matillón, se centra en la importancia del linaje de datos. «La IA requerirá una forma completamente diferente de ver las prioridades y prácticas de gobernanza para tener una mejor visibilidad de los canales de datos y el linaje de datos que alimenta las aplicaciones y modelos de IA».
Linaje de datos ayuda a exponer el ciclo de vida de los datos y responder preguntas sobre quién, cuándo, dónde, por qué y cómo cambian los datos. Debido a que la IA amplía el alcance de los datos y sus casos de uso, comprender el linaje de los datos se vuelve más importante para más personas en la organización, incluidas las personas en seguridad y otras funciones de gestión de riesgos.
Revisar la gestión de datos y las arquitecturas de canalización.
Más allá de las políticas y la calidad de los datos, los líderes de la gobernanza de datos deben extender su influencia a las funciones de arquitectura y gestión de datos. Gobernanza de datos proactiva permite un conjunto de capacidades para que más empleados puedan aprovechar los datos, los análisis (y ahora la IA) para hacer su trabajo y tomar decisiones más inteligentes. La forma en que se almacenan, acceden, fabrican, catalogan y documentan los datos son factores que influyen en la rapidez, facilidad y seguridad con la que las organizaciones podrán ampliar sus datos a casos de uso de genAI.
Hillary Ashton, directora de producto de teradatasugiere las siguientes formas de hacer realidad los casos de uso de IA más interesantes:
- Cree productos de datos reutilizables, o conjuntos seleccionados de datos buenos conocidos, para ayudar a la organización a controlar mejor e infundir confianza en sus datos.
- Respete la gravedad de los datos para que la información sea accesible para más personas dentro de la fuerza laboral sin mover datos entre diferentes entornos.
- Ponga a prueba iniciativas de IA teniendo en cuenta la escalabilidad, incluidas canalizaciones de datos de IA/ML con una gobernanza sólida que también permita un ecosistema abierto y conectado.
Una clave para los equipos de datos es identificar marcos y plataformas que sean fáciles de usar y admitan múltiples casos de uso. Sean Mahoney, director general y vicepresidente de Unsono dice: «Los marcos de gobernanza están empezando a parecer más ágiles para permitir que los equipos respondan más rápidamente al ritmo de los avances tecnológicos». Sugiere que los líderes de gobernanza de datos también revisen y se involucren en estas herramientas:
- Mallas de datos para delegar la gestión de los datos a quienes los crean.
- Bases de datos vectoriales para manejar la escalabilidad y la complejidad inherentes a la IA generativa y los LLM.
- Herramientas de monitoreo en tiempo real para expandir la gobernanza de datos en más sistemas.
Otra consideración es cómo la gobernanza, la gestión y la arquitectura de los datos requieren comprender las regulaciones globales sobre el almacenamiento de datos. De Vries, de EDB, recomienda: «Las empresas deberían implementar bases de datos distribuidas globalmente para mejorar sus prácticas de gobernanza de datos manteniendo datos altamente regulados dentro de su región y al mismo tiempo distribuyendo datos menos restrictivos a nivel mundial para agilizar el suministro de plataformas de IA».
Amplíe la gobernanza de datos a los flujos de trabajo genAI
Las funciones de gobernanza de datos también deben considerar cómo el uso de herramientas genAI y LLM requiere políticas y mejores prácticas. Por ejemplo, al principio de este artículo, cité explícitamente ChatGPT para que los lectores supieran que la respuesta procedía de una fuente genAI. La buena gobernanza de datos exige educar a los empleados sobre los procedimientos para aumentar la transparencia, las herramientas que pueden utilizar y las prácticas que minimicen los problemas de privacidad de los datos.
«Lo más importante que estoy viendo es el aumento de formas de aprovechar, compartir y aprender de los datos con precisión manteniendo la privacidad y la autenticidad», dice Deon Nicholas, director ejecutivo de Previsión. «Por ejemplo, los motores de búsqueda basados en LLM como Perplexity siempre citan sus fuentes, o tecnologías de redacción de datos como Private AI que le permiten eliminar y redactar PIl antes de ingerir o enviar datos a LLMS».
Una medida nueva y proactiva que los líderes de gobierno de datos deberían considerar es la creación de bibliotecas rápidas donde los empleados puedan registrar sus casos de uso rápidos y compartirlos en todas las organizaciones. Esta disciplina amplía las prácticas de gestión del conocimiento que muchos equipos de gobierno de datos ya aplican en torno al mantenimiento de catálogos y diccionarios de datos.
Nikolaos Vasiloglou, vicepresidente de investigación de aprendizaje automático en IA relacional, dice, “El combustible de los LLM consiste en una combinación de contenido limpio y bien seleccionado almacenado generalmente en un gráfico de conocimiento junto con conocimiento experto que generalmente se presenta en forma de bibliotecas rápidas. Si bien tenemos buenas prácticas de gobernanza para los gráficos de conocimiento, no es obvio cómo gobernar estos últimos”.
Me encanta la cita popularizada en el hombre araña película, “Un gran poder conlleva una gran responsabilidad”. Estamos viendo una rápida evolución de las capacidades de genAI y la pregunta es si los equipos de gobierno de datos darán un paso adelante en su lado de la ecuación.
Copyright © 2024 IDG Communications, Inc.