OpenAI, desarrollador de ChatGPT, reconoció recientemente la necesidad de utilizar material protegido por derechos de autor en el desarrollo de herramientas de inteligencia artificial como ChatGPT. El Telégrafo informes, diciendo que serían «imposibles» sin él. La declaración llegó como parte de una presentación a la investigación del comité selecto digital y de comunicaciones de la Cámara de los Lores del Reino Unido sobre grandes modelos lingüísticos.
Modelos de IA como ChatGPT y el generador de imágenes DARLE Adquirir sus habilidades a partir de sesiones de capacitación alimentadas, en parte, por grandes cantidades de contenido. extraído de la Internet pública sin el permiso de los titulares de los derechos (en el caso de OpenAI, sin embargo, parte del contenido de la formación tiene licencia). Este tipo de raspado gratuito es parte de una larga tradición en la investigación académica sobre aprendizaje automático, pero debido a que los modelos de inteligencia artificial de aprendizaje profundo se comercializaron recientemente, la práctica ha sido objeto de un intenso escrutinio.
«Debido a que los derechos de autor cubren hoy prácticamente todo tipo de expresión humana, incluidas publicaciones de blogs, fotografías, publicaciones en foros, fragmentos de código de software y documentos gubernamentales, sería imposible entrenar los principales modelos de IA actuales sin utilizar materiales protegidos por derechos de autor», escribió OpenAI en la Cámara. de la sumisión de los Lores.
Además, OpenAI escribe que limitar los datos de entrenamiento a libros y dibujos de dominio público «creados hace más de un siglo» no proporcionaría sistemas de IA que «satisfagan las necesidades de los ciudadanos de hoy».
Esta declaración sigue una demanda presentada el mes pasado por The New York Times contra OpenAI y Microsoft, un importante inversor en OpenAI, por supuestamente utilizar ilegalmente el contenido del periódico en sus productos. Abierto AI respondió a la demanda en su sitio web el lunes, alegando que la demanda carece de mérito y afirmando su apoyo al periodismo y las asociaciones con organizaciones de noticias.
La defensa de OpenAI se basa en gran medida en el principio legal de uso justo, que permite el uso limitado de contenido protegido por derechos de autor sin el permiso del propietario en circunstancias específicas. La empresa afirma que la ley de derechos de autor no prohíbe el entrenamiento de modelos de IA con dicho material.
«Entrenar modelos de IA utilizando materiales de Internet disponibles públicamente es un uso legítimo, tal como lo respaldan precedentes de larga data y ampliamente aceptados», escribió OpenAI en su blog del lunes. «Consideramos que este principio es justo para los creadores, necesario para los innovadores y crítico para Competitividad de Estados Unidos.»
Esta no es la primera vez que OpenAI afirma un uso legítimo de sus datos de entrenamiento de IA. En agosto informamos sobre una situación similar en el que OpenAI defendió su uso de materiales disponibles públicamente como uso justo en respuesta a una demanda por derechos de autor que involucraba a la comediante Sarah Silverman.
OpenAI afirmó que los autores de esa demanda «conciben erróneamente[d] «El alcance de los derechos de autor, sin tener en cuenta las limitaciones y excepciones (incluido el uso legítimo) que dejan espacio para innovaciones como los grandes modelos lingüísticos que ahora están a la vanguardia de la inteligencia artificial».