¿Lo que acaba de suceder? La actual controversia sobre posibles infracciones de derechos de autor relacionadas con los datos de entrenamiento de grandes modelos lingüísticos ha dado un giro significativo. El New York Times ha demandado a OpenAI y Microsoft por utilizar millones de sus artículos para entrenar sus sistemas sin permiso ni compensación.
No es ningún secreto que los LLM utilizan grandes cantidades de información de Internet como datos de capacitación, pero el NYT afirma en su demanda por infracción de derechos de autor que se le ha dado «particular énfasis» a su contenido. La demanda, presentada en el tribunal federal de Manhattan, afirma que las empresas «buscan aprovecharse de la enorme inversión del Times en su periodismo utilizándolo para crear productos sustitutivos sin permiso ni pago».
La demanda afirma que los millones de artículos de noticias, investigaciones en profundidad, artículos de opinión, reseñas, guías prácticas y más del Times protegidos por derechos de autor se utilizaron para entrenar a los chatbots, que ahora compiten con el medio de comunicación como fuente de información. .
La demanda también destaca información proporcionada por Bing que identificó erróneamente el contenido de la publicación. Incluía «los 15 alimentos más saludables para el corazón», doce de los cuales no habían sido mencionados en el artículo del Times. Otra afirmación es que el contenido generado son extractos textuales de artículos del NYT, lo que significa que la publicación está perdiendo espectadores y clientes que pagan a empresas como ChatGPT.
La demanda dice que los acusados deberían ser considerados responsables de «miles de millones de dólares en daños legales y reales». También solicita que las empresas destruyan cualquier modelo de chatbot y datos de capacitación que utilicen material protegido por derechos de autor de The Times. OpenAI cree que su uso del contenido del NYT se considera «uso justo» porque tiene un nuevo propósito «transformador».
La demanda también dedica bastante tiempo a mostrar cómo se encuentra su contenido en conjuntos de datos públicos, como WebText2, y también tiene un gran peso allí debido a su calidad percibida. pic.twitter.com/fO8iE8yAtN
– Mateo Berman (@MatthewBerman) 28 de diciembre de 2023
Fue reportado En agosto, el Times había estado en «negociaciones tensas» para llegar a un acuerdo de licencia con OpenAI y Microsoft que permitiría al primero entrenar legalmente su modelo GPT a partir del material publicado por el Times, algo que el periódico había decidido prohibir previamente. Pero las conversaciones fracasaron, lo que llevó a la demanda actual. OpenAI ya tiene un acuerdo con Reuters para utilizar su contenido con fines de formación.
La extracción de datos ha aparecido en numerosos titulares este año. Elon Musk amenazó con demandar a Microsoft en abril por una afirmación de que estaba utilizando ilegalmente datos de Twitter (como todavía lo era entonces) para entrenar modelos de IA. En abril, más de 8.000 autores, entre ellos luminarias como James Patterson, Margaret Atwood y Jonathan Franzen, firmaron una carta abierta pidiendo a los líderes de las seis principales empresas de inteligencia artificial que no utilicen su trabajo para entrenar modelos sin obtener primero el consentimiento y ofrecer una compensación. A pesar de este alegato, OpenAI ha sido demandado por autores en varias ocasiones por infracción de derechos de autor.
En una demanda separada pero similar, los artistas lanzaron una demanda por derechos de autor contra los generadores de arte de IA Stable Diffusion y Midjourney en enero.