Opinión del editor: No hay duda de que muchas personas en la industria tecnológica están entusiasmadas con el potencial que la IA generativa ofrece a nuestra vida laboral y personal. Sin embargo, por muy fascinantes que puedan ser esas oportunidades, hay dos principios esenciales, pero poco comprendidos, que deben abordarse para utilizar la tecnología de forma segura y responsable. En una palabra (o en realidad dos), son procedencia y gobernanza.
La procedencia se refiere a conocer la fuente de dónde proviene un texto, una imagen, un video, un fragmento de código u otra información en particular, mientras que la gobernanza se refiere a la gestión y el control sobre la creación y el uso de la información.
Estas dos palabras que suenan similares no han sido una parte común del léxico del mundo tecnológico hasta hace poco.
Pero el crecimiento explosivo de GenAI y las herramientas y aplicaciones asociadas a ella los ha puesto en primer plano. También está centrando más atención en empresas como Adobe e IBM que están abordando estos problemas de maneras únicas e importantes.
«En un mundo ahora repleto de modelos básicos que generan nuevo material basado en la entrada de enormes cantidades de datos existentes, la procedencia u origen de un contenido tiene múltiples significados»
En primer lugar, está la cuestión de si ese contenido fue creado directamente por una persona o generado por un algoritmo. Si realmente proviene de un algoritmo, existe un interés creciente en saber qué modelo básico o herramienta GenAI lo produjo. En segundo lugar, y lo más importante, hay grandes interrogantes sobre qué fuentes originales de información se utilizaron para entrenar los modelos que generaron ese contenido. Finalmente, hay enorme legal y preocupaciones éticas sobre el uso de contenido generado, particularmente si se basa en material protegido por derechos de autor.
Ya ha habido numerosos casos judiciales sobre estos temas, incluido uno con el New York Times. demandando OpenAI por lo que creen que es una infracción de derechos de autor basada en resultados generados que eran prácticamente idénticos a algunos artículos del New York Times (incluidos muchos detrás de un muro de pago). Si bien todavía no se ha resuelto nada, probablemente será la primera de muchas demandas similares y ya está comenzando a conducir a grandes acuerdos de licencia entre proveedores de contenido y fabricantes de modelos GenAI.
Imagen de bus generada con el uso Difusión estable – Cabecera creada por Dall-E.
En el mundo de los gráficos generados, el problema es particularmente grave, ya que ejemplos recientes que involucran Dall-E 3, Difusión estable y A mitad del viaje mostró lo que parecen ser casos muy obvios de infracción de cosas como escenas y personajes de películas. Una vez más, es probable que surja una amplia gama de disputas legales basadas en estas cuestiones.
Es probable que algunos ayuden a determinar si el uso de material protegido por derechos de autor para capacitación se considera uso legítimo o no. Lo más importante serán los resultados que aclaren qué se puede hacer con el nuevo contenido generado que se parezca mucho al contenido protegido por derechos de autor.
Gigante del software creativo Adobe ha terminado adoptando un enfoque muy diferente ante la situación con sus nuevas ofertas GenAI y, en el proceso, aparentemente está evitando las preocupaciones de derechos de autor que otros puedan tener. Durante años, la compañía ha administrado un servicio de imágenes, fotografías y videos de archivo al que llama Adobe Stock, donde paga a los creadores de contenido por su trabajo y ofrece un mercado donde pueden venderlo a los usuarios de Adobe. Con el tiempo, esa biblioteca de contenido (todo el cual se verifica para detectar problemas relacionados con los derechos de autor antes de incluirse) se ha convertido en millones de imágenes, contenido de video y más. Cuando llegó el momento de empezar a entrenar sus propios modelos de imágenes GenAI, la empresa decidió sabiamente utilizar ese material como fuente.
En el proceso, han logrado evitar los tipos de escrutinio legal que enfrentan otros. Adobe reveló el contenido que utilizó para la capacitación (un tema que muy pocos modelos GenAI de cualquier tipo aún no han hecho) y dejó en claro que es seguro para uso comercial. Lo hicieron a través de un proceso legal llamado indemnización eso también se está convirtiendo en un problema mayor en el mundo de GenAI.
Adobe pudo hacer esto fácilmente (y explicárselo a otros) porque ninguno de los materiales originales de Adobe Stock tiene problemas relacionados con los derechos de autor. De hecho, los proveedores de contenido incluso están recibiendo pagos (aunque algunos han argumentado que son muy pequeños) por incluir su contenido como parte del conjunto de capacitación.
El resultado neto es una oferta fácilmente explicable y comprensible que podría servir como un buen ejemplo para otros que intentan abrirse camino a través de los posibles atolladeros legales del contenido creado por GenAI. La obra también se vincula con la Iniciativa de autenticidad de contenido (CAI), un grupo que Adobe fundó en 2019 y que ha crecido hasta cerca de 2.500 miembros. El CAI se enfoca en ayudar a aumentar la transparencia en el ecosistema digital a través de herramientas como Content Credentials, que funcionan como una etiqueta nutricional para el contenido en línea. Estas etiquetas facilitan que los usuarios potenciales del contenido comprendan de dónde proviene.
Realmente no es el Papa
Otro factor crítico para garantizar el uso seguro de GenAI es un proceso conocido como gobernanza, que consiste en el seguimiento de conjuntos de datos y modelos que se utilizan en aplicaciones basadas en GenAI. Como resultado de sus muchas décadas de trabajo con industrias clave y aplicaciones críticas, IBM ha desarrollado un conjunto muy maduro de metodologías y mejores prácticas en torno a la gobernanza que recientemente comenzó a aplicar al mundo de GenAI.
Como parte del conjunto de herramientas GenAI watson:x de la empresa, watsonx.gobernanza incorpora herramientas que permiten a las organizaciones registrar qué conjuntos de datos se utilizaron para entrenar qué modelos, qué cambios se realizan a lo largo del tiempo en los conjuntos de datos y modelos, la calidad del resultado resultante de las diversas permutaciones que se han probado, y más. Además, las recientes incorporaciones a las herramientas de gobernanza ahora pueden rastrear detalles internos de las operaciones de LLM, incluidos aspectos como el tamaño de los datos, la latencia y el rendimiento.
La idea es tener un conocimiento profundo de las materias primas que intervienen en el modelo GenAI y el proceso de creación de aplicaciones. Al hacerlo, las herramientas de gobernanza pueden ayudar a las empresas a evitar posibles problemas con cosas como alucinaciones, deriva del modelo y otros problemas de producción de datos, al mismo tiempo que mejoran el rendimiento. Curiosamente, IBM se refiere a sus capacidades de gobernanza como si ofrecieran una etiqueta nutricional para la IA.
IBM originalmente creó estas herramientas de gobernanza para ayudar a mejorar la calidad de sus propios modelos GenAI, pero pronto se dio cuenta de la necesidad de hacer que estas capacidades funcionaran también en modelos fabricados por otros. Como resultado, las herramientas watsonx.governance ahora pueden funcionar con modelos GenAI creados con herramientas de Amazon, Microsoft y Google y que se ejecutan en plataformas de esas empresas, así como de OpenAI, entre otras. Para brindar a los clientes potenciales la mayor flexibilidad posible, el trabajo de gobernanza se puede realizar en la nube o en las instalaciones para cualquiera de estos diferentes modelos.
«Juntos (procedencia y gobernanza) pueden aportar importantes mejoras legales, éticas y cualitativas a la creación de modelos y aplicaciones basados en GenAI. Aún más importante, pueden ayudar a generar una sensación de seguridad y claridad para las organizaciones que se están sumergiendo en esto. campo que cambia rápidamente»
Otra parte intrigante de las capacidades de gobernanza de wastonx.es es vincularlo con el mundo exterior. Por ejemplo, otra característica nueva es la capacidad de rastrear cambios regulatorios que podrían influir en lo que genera un modelo. Al definir una estrategia de negocios para un modelo determinado, las herramientas de gobernanza pueden notificar a las organizaciones solo las regulaciones relevantes que necesitan conocer y vincular esos nuevos cambios a los riesgos, controles y políticas clave asociados con un modelo determinado. En conjunto, estas reglas pueden ayudar a las empresas a desarrollar o perfeccionar con más confianza sus esfuerzos basados en GenAI.
Si bien procedencia y gobernanza probablemente no sean las dos primeras palabras que le vienen a la mente cuando alguien pregunta sobre GenAI, cada vez está más claro que estos principios deben ser una parte esencial de la estrategia GenAI de cualquier empresa. Juntos pueden aportar importantes mejoras legales, éticas y cualitativas a la creación de modelos y aplicaciones basados en GenAI. Aún más importante, pueden ayudar a generar una sensación de seguridad y claridad para las organizaciones que se sumergen en este campo que cambia rápidamente.
Bob O’Donnell es el fundador y analista jefe de Investigación tecnológica, LLC una firma de consultoría tecnológica que brinda servicios de consultoría estratégica e investigación de mercado a la industria tecnológica y la comunidad financiera profesional. Puedes seguirlo en Twitter. @bobodtech