Una patata caliente: El entrenamiento de modelos avanzados de IA con material patentado se ha convertido en un tema controvertido. Muchas empresas ahora enfrentan desafíos legales por parte de autores y organizaciones de medios en los tribunales. Meta admitió haber utilizado el conocido conjunto de datos «pirata», Books3, pero la empresa se muestra reacia a compensar adecuadamente a los escritores.
Un grupo de autores presentó una demanda contra Meta, alegando el uso ilegal de material protegido por derechos de autor en el desarrollo de sus modelos de lenguaje grande Llama 1 y Llama 2. En respuesta, Facebook se dirigió a la escritora y comediante Sarah Silverman, al autor Richard Kadrey y a otros titulares de derechos que encabezan la acción legal, reconociendo que sus LLM fueron capacitados utilizando libros protegidos por derechos de autor.
meta tiene aceptado al uso del conjunto de datos de Books3, entre muchos otros materiales, para capacitar LLM de Llama 1 y Llama 2. Libros3 es un conjunto bien conocido que comprende una colección de texto plano de más de 195.000 libros con un total de casi 37 GB. El archivo fue creado por el investigador de IA Shawn Presser en 2020 como una forma de proporcionar una mejor fuente de datos para mejorar. aprendizaje automático algoritmos.
La amplia disponibilidad del conjunto de datos Books3 ha llevado a que muchos investigadores lo utilicen ampliamente en el entrenamiento de IA. Las grandes empresas tecnológicas, incluida Meta, han utilizado Books3 y otros conjuntos de datos polémicos para sus productos comerciales de inteligencia artificial. En ese sentido, el New York Times ha demandó a OpenAI y Microsoft por supuestamente utilizar millones de artículos con derechos de autor para desarrollar el chatbot ChatGPT.
OpenAI ha declarado abiertamente que entrenar modelos de IA sin utilizar material protegido por derechos de autor es «imposible», argumentando que los jueces y tribunales deben desestimar las demandas de indemnización interpuestas por los titulares de derechos. Haciéndose eco de esta postura, Meta admitió haber utilizado Books3 pero negó cualquier mala conducta intencional.
Meta reconoció haber utilizado partes del conjunto de datos de Books3, pero argumentó que su uso de obras protegidas por derechos de autor para capacitar a los LLM no requería «consentimiento, crédito o compensación». La compañía refuta las afirmaciones de infringir los «presuntos» derechos de autor de los demandantes, sosteniendo que cualquier copia no autorizada de obras protegidas por derechos de autor en Books3 debe considerarse uso legítimo.
Además, Meta está cuestionando la validez de mantener la acción legal como una demanda colectiva, negándose a proporcionar cualquier «alivio» monetario a los autores demandantes u otras personas involucradas en la controversia de Books3. El conjunto de datos, que incluye material protegido por derechos de autor procedente del sitio pirata Bibliotik, fue atacado en 2023 por el grupo danés antipiratería Rights Alliance, exigiendo que se prohibiera el archivo digital del conjunto de datos Books3 y está utilizando avisos de la DMCA para hacer cumplir esas eliminaciones.