OpenAI: las herramientas GenAI no se pueden crear sin materiales con derechos de autor

En respuesta a los esfuerzos legales para frenar su recopilación de datos, OpenAI argumenta que la creación de herramientas avanzadas de IA generativa (genAI) es inviable sin el uso de contenido protegido por derechos de autor para entrenarlas.

En un informe al Comité Selecto Digital y de Comunicaciones de la Cámara de los Lores del Reino Unido, OpenAI dijo que la capacitación extensa grandes modelos de lenguaje (LLM) como GPT-4, la tecnología subyacente de ChatGPT, serían imposibles sin el uso de materiales protegidos por derechos de autor.

«Debido a que los derechos de autor cubren hoy prácticamente todo tipo de expresión humana, incluidas publicaciones de blogs, fotografías, publicaciones en foros, fragmentos de código de software y documentos gubernamentales, sería imposible entrenar los principales modelos de IA actuales sin utilizar materiales protegidos por derechos de autor». OpenAI dijo en su presentación.

Aplicaciones GenAI como ChatGPT o la herramienta de generación de imágenes Difusión estable se crean utilizando grandes cantidades de datos, muchos de ellos protegidos por leyes de derechos de autor, recopilados de Internet. Esto ha provocado una creciente oposición de editores y autores que dicen que su trabajo se utiliza sin crédito ni compensación.

Preocupaciones sobre el código protegido por derechos de autor

Los desarrolladores han estado utilizando recursos como Google y StackOverflow durante décadas, dijo Daniel Li, director ejecutivo de Plus Docs, una empresa cuyo software utiliza genAI para diseñar, crear y editar presentaciones. ChatGPT, dijo, simplemente permite una mayor facilidad de uso al codificar.

“Sin embargo, lo importante a tener en cuenta es que los desarrolladores aún necesitan comprender su código. ChatGPT no cambia ese requisito”, dijo.

Li estuvo de acuerdo en que “las empresas deben tener mucho cuidado de no utilizar códigos u otros textos protegidos por derechos de autor. Este ya es un tema importante en las adquisiciones de software para las grandes empresas tecnológicas, y será cada vez más importante».

La declaración de OpenAI se produce cuando la empresa enfrenta una serie de acciones legales. La semana pasada, Los New York Times presentó una demanda contra él y Microsoft, importante inversor en la empresa y usuario de sus herramientas en diversos productos de Microsoft; la demanda alega el uso ilegal de New York Times contenido en la creación de herramientas OpenAI. OpenAI argumentó a cambio que la ley de derechos de autor no prohíbe el entrenamiento de modelos genAI.

OpenAI el año pasado enfrentó una demanda colectiva federal en California acusándolo de utilizar ilegalmente datos personales con fines de formación. Esa demanda, presentada en el Distrito Norte de California, citó 15 violaciones, incluidas infracciones de la Ley de Abuso y Fraude Informático, la Ley de Privacidad de las Comunicaciones Electrónicas y varios estatutos de derechos del consumidor a nivel estatal.

La acusación central de la demanda de California es que OpenAI “adquirió ilegalmente” los datos privados de los demandantes y los utilizó sin ofrecer compensación.

Según la denuncia, “OpenAI empleó estos datos malversados para refinar y avanzar [ChatGPT] a través de extensos modelos de lenguaje y algoritmos de lenguaje avanzados, lo que le permite producir y comprender un lenguaje similar al humano, aplicable en una multitud de usos”.

Proliferan las demandas

El caso de California es parte de una creciente lucha legal sobre los esfuerzos para frenar la desenfrenada recopilación de datos mediante herramientas genAI. Un grupo de autores de no ficción ha iniciado una demanda colectiva contra OpenAI y Microsoft, alegando que las empresas infringieron los derechos de autor de los autores al utilizar sus escritos y artículos académicos para entrenar ChatGPT sin autorización.

El demandante principal es Julian Sancton, autor de «Manicomio en el fin de la Tierra: el viaje de Bélgica a la oscura Antártida» Esa demanda acusa a OpenAI y Microsoft de ignorar flagrantemente las leyes de derechos de autor para crear «un negocio multimillonario mediante el uso de obras colectivas de la humanidad sin permiso. En lugar de compensar la propiedad intelectual, actúan como si las leyes de derechos de autor no existieran».

John Licato, profesor asistente de Ciencias de la Computación e Ingeniería en la Universidad del Sur de Florida, dijo que la postura de OpenAI podría generar problemas de derechos de autor.

«La línea que separa la adaptación de ideas existentes y la creación genuina de algo nuevo ya es confusa, y la IA nos está obligando a ver cuán mal definida está realmente esa distinción», dijo Licato.

Enlace fuente