Una patata caliente: Los investigadores de inteligencia artificial solían trabajar en paz. Sin embargo, ahora que empresas como OpenAI, Microsoft, Google y otras están comercializando IA generativa, el uso de material de formación protegido por derechos de autor ha sido objeto de críticas. Los reguladores del Reino Unido están solicitando información sobre el tema y OpenAI respondió recientemente.
OpenAI dijo recientemente a los miembros de la Cámara de los Lores que es «imposible» tren modelos de lenguaje grandes (LLM) sin utilizar material protegido por derechos de autor. El reclamo fue en respuesta al Comité Selecto Digital y de Comunicaciones del Reino Unido, que está investigando las cuestiones legales relacionadas con los sistemas de IA actuales.
Las aplicaciones de consumo actuales como ChatGPT y Dall-E se basan en GPT-3. Desde 2018, OpenAI ha entrenado el modelo en miles de millones de muestras de escritos, arte y fotografías, en su mayoría extraídas de Internet. En marzo, OpenAI lanzó GPT-4, que utiliza un conjunto de datos de muestras de texto. medición alrededor de 570 GB. Algunos ejemplos del material de formación incluyen sitios web y libros, que sin duda son obras protegidas. Sin embargo, la ley de derechos de autor va mucho más allá de los libros y los sitios web.
«Debido a que hoy en día los derechos de autor cubren prácticamente todo tipo de expresión humana, incluidas publicaciones de blogs, fotografías, publicaciones en foros, fragmentos de código de software y documentos gubernamentales, sería imposible entrenar los principales modelos de IA actuales sin utilizar materiales protegidos por derechos de autor», presentó OpenAI a la Cámara. de los Lores lee.
De hecho, según la actual ley de derechos de autor, ni siquiera es necesario registrar un derecho de autor para estar protegido. Cualquier propiedad intelectual es instantáneamente protegido por derechos de autor cuando el creador lo configura en medios permanentes. No importa si se trata de un archivo digital, un vídeo, un libro, una publicación de blog o un comentario en un foro. Se aplican todas las leyes de derechos de autor.
Esta cuestión no era un gran problema en años anteriores porque la investigación sobre el aprendizaje automático era estrictamente académica. La formación se consideraba en gran medida un uso legítimo y nadie molestaba a los investigadores. Sin embargo, ahora que los LLM se están volviendo comerciales, han entrado en un área gris de la doctrina del uso legítimo.
En raras ocasiones, ChatGPT «regurgita» fragmentos con derechos de autor, lo cual es una infracción simple y un problema que OpenAI está trabajando arduamente para eliminar. Sin embargo, esa cuestión no está directamente relacionada con lo que sucede cuando los investigadores capacitan a un LLM con material protegido. En cambio, el sistema utiliza las obras, con derechos de autor o no, para aprender cómo se estructura y utiliza el lenguaje para poder crear contenido original que los humanos puedan entender.
Desafortunadamente, al ser una nueva frontera, la ley de derechos de autor no tiene una definición legal con respecto a la capacitación en IA. Por eso, las partes presuntamente infractoras han comenzado a llevar los casos a los tribunales. Empresas como OpenAI y Microsoft dicen: «No. La capacitación se considera uso legítimo, como siempre lo ha sido».
«Entrenar modelos de IA utilizando materiales de Internet disponibles públicamente es un uso legítimo, como lo respaldan precedentes de larga data y ampliamente aceptados», relató OpenAI en una publicación de blog esta semana. «Consideramos que este principio es justo para los creadores, necesario para los innovadores y fundamental para la competitividad de Estados Unidos».
A pesar de creyendo Aunque la doctrina del uso legítimo cubre la formación de LLM, OpenAI proporciona un proceso de exclusión voluntaria simple, que The New York Times utilizó en agosto del año pasado. Las herramientas de OpenAI ya no pueden acceder al sitio web del NYT, pero el periódico archivado una demanda en diciembre.
«Apoyamos el periodismo, nos asociamos con organizaciones de noticias, [but] Creo que la demanda del New York Times no tiene fundamento», afirmó.
Abierto AI caras demandas similares de varios autores publicados, incluida la destacada comediante Sarah Silverman. Es una cuestión que los tribunales no pueden abordar solos. La Oficina de Patentes y Marcas de EE. UU., junto con los legisladores, deben definir claramente el papel que desempeña la formación en IA en las normas de derechos de autor.