Mientras las preocupaciones por los derechos de autor plagan el campo de la IA generativa, Apple busca preservar la privacidad y la legalidad a través de métodos de capacitación innovadores para el aprendizaje de idiomas, evitando al mismo tiempo la controversia.
En los últimos años, la cuestión de la IA generativa en relación con la ley de derechos de autor sigue siendo una cuestión relativamente importante y compleja. A medida que los modelos de aprendizaje de idiomas (LLM) y las aplicaciones de inteligencia artificial generativa aumentan en popularidad, los problemas de derechos de autor continúan acumulándose sin ningún tipo de resolución significativa.
Los problemas surgen cuando las empresas utilizan obras protegidas por derechos de autor para entrenar su software de IA generativa y cuando los resultados de dicho software de IA contienen secciones de obras protegidas por derechos de autor.
Copiar obras protegidas por derechos de autor en su totalidad o utilizar secciones importantes de dichas obras para entrenar software de IA generativa es una infracción de derechos de autor. No existe ninguna excepción de «uso legítimo» para el entrenamiento en IA, a pesar de lo que digan o crean las empresas que entrenan a los modelos.
Demandas por infracción de derechos de autor y IA generativa
A finales de diciembre de 2023, OpenAI y Microsoft fueron demandados por Los New York Times por infracción de derechos de autor. En la demanda, se afirmó que las dos empresas entrenaron su software de IA generativa utilizando millones de artículos publicados por Los New York Times.
Esta no fue la primera vez que OpenAi enfrentó una demanda por el entrenamiento de modelos. En septiembre de 2023, la empresa fue también demandado de varios autores destacados, entre ellos George RR Martin, Michael Connelly y Jonathan Franzen.
La historia de la IA generativa y los problemas de derechos de autor se remonta aún más atrás: en julio de 2023, más de 15.000 autores firmados una carta abierta dirigida a varias empresas destacadas, incluidas Alphabet, OpenAI, Meta, Microsoft y más.
La carta solicitaba que los autores fueran acreditados y compensados adecuadamente por su trabajo, que se utilizó en el entrenamiento de IA generativa y modelos de aprendizaje de idiomas.
Otra demanda colectiva similar que alega infracción de derechos de autor fue archivado contra OpenAI de los autores de no ficción Nicholas Basbanes y Nicholas Gage. La demanda fue presentada en enero de 2024.
A finales de abril de 2024, otra demanda relacionada con la IA fue archivado, esta vez contra Amazon. La demanda alega que un empleado de Amazon recibió instrucciones de ignorar y violar deliberadamente la ley de derechos de autor para que Amazon pudiera competir con productos y servicios rivales de manera más efectiva.
En la demanda, una ex empleada de Amazon afirma que un supervisor le dijo que «todos los demás lo están haciendo» con respecto a la capacitación en inteligencia artificial que viola los derechos de autor, lo que implica que personas de compañías rivales estaban participando conscientemente en una infracción de derechos de autor.
Y está bastante claro que lo son.
La IA y las preocupaciones de los editores sobre la reproducción de contenido protegido por derechos de autor
Se sabe que la IA reproduce contenido protegido por derechos de autor en múltiples ocasiones, y la gravedad del problema ha inspirado a las empresas a analizar la frecuencia con la que esto sucede.
Para comprender mejor el ritmo al que los chatbots de IA generan contenido protegido por derechos de autor, la empresa PatronusAI decidió investigar el asunto. La empresa, que evalúa modelos de IA generativa, comparó cuatro Principales modelos de IA: ChatGPT-4 de OpenAi, Llama 2 de Meta, Mixtral de Mistral y Claude 2.1 de Anthropic.
Patronus AI descubrió que la velocidad a la que la IA generaba contenido protegido por derechos de autor variaba en última instancia según el modelo, pero que las tasas de generación de contenido protegido por derechos de autor eran altas. La compañía también lanzó su propia herramienta, conocida como Copyright Catcherque detectaría posibles violaciones de derechos de autor en los LLM.
Si bien la generación de contenido protegido por derechos de autor tiene graves implicaciones, los editores también están preocupados por el uso de material protegido por derechos de autor en la formación de modelos de aprendizaje de idiomas.
En marzo de 2024, El periodico de Wall Street reportado que editores destacados estaban investigando el uso de sus obras protegidas por derechos de autor en el entrenamiento de modelos de IA generativa. Los editores querían que AI les pagara por el uso de su trabajo.
Dada la cantidad de demandas relacionadas con la IA generativa y los derechos de autor y la gravedad de las preocupaciones expresadas por los editores, tiene sentido que una empresa como Apple haga todo lo posible para evitar posibles problemas legales.
El enfoque único de Apple hacia la IA generativa, los modelos de aprendizaje de idiomas y las cuestiones de derechos de autor
Como forma de evitar problemas similares de derechos de autor durante el entrenamiento de su propio software de inteligencia artificial generativa, Apple supuestamente ha estado otorgando licencias de trabajos de importantes publicaciones de noticias.
En diciembre de 2023, Fue reportado que Apple planeaba intentar obtener licencias de obras de Conde Nast, el editor de Moda y El neoyorquino. La compañía también había hablado con IAC y NBC News en un intento de llegar a un acuerdo por un valor aproximado de 50 millones de dólares.
Mientras Apple desarrollaba su modelo de aprendizaje de idiomas, conocido internamente como Ajax, con conceptos básicos funcionalidad en el dispositivo, la empresa adoptó un enfoque diferente hacia funciones más avanzadas. Apple consideró otorgar licencias de software como Google Gemini para tareas más complejas que requieren una conexión a Internet.
Al emplear esta estrategia, Apple claramente tenía la intención de evitar problemas de derechos de autor. Con la licencia paga, Apple no sería responsable de la infracción de derechos de autor causada o perpetrada por software como Google Gemini.
En un artículo de investigación publicado en marzo de 2024, Apple reveló que utilizó una combinación cuidadosamente seleccionada de imágenes, imagen-texto y entrada basada en texto para capacitar a su LLM interno. El método que utilizó Apple permitió mejorar los subtítulos de las imágenes, el razonamiento de varios pasos y preservar la privacidad, todo al mismo tiempo.
Fuentes de la industria nos dijeron que Ajax LLM de Apple preserva la privacidad porque no requiere una conexión a Internet para el análisis de texto básico. Esto significa que el LLM en el dispositivo no puede conectarse a una base de datos e identificar contenido protegido por derechos de autor en modo fuera de línea, aunque es probable que funciones más avanzadas como la generación de texto incluyan tales comprobaciones y conexiones.
Dejando a un lado los informes y los proyectos documentados, las barreras de seguridad y las licencias sólo son igual de seguras si se hacen cumplir. Fuentes familiarizadas con los entornos de prueba de IA de Apple hablan con AppleInsider han revelado que aparentemente había pocas o ninguna restricción para evitar que alguien usara material protegido por derechos de autor en la entrada para entornos de prueba en el dispositivo.
Nuestra fuente no tenía claras las regulaciones dentro de Apple para evitar la capacitación que viola los derechos de autor. Sin embargo, es probable que la producción esté más regulada para evitar la reproducción palabra por palabra de material protegido por derechos de autor.
Apple debería presentar su tecnología de IA generativa durante WWDC que comienza el 10 de junio.