Una patata caliente: Uno de los muchos elementos controvertidos que rodean a las IA generativas y los datos de entrenamiento de sus grandes modelos de lenguaje (LLM) son las posibles infracciones de derechos de autor. Es un tema que vuelve a ser el centro de atención luego de un informe de que OpenAI transcribió más de un millón de horas de videos de YouTube para entrenar GPT-4. ¿Por qué Google, el propietario de YouTube, no se opuso? Porque hizo lo mismo.
Para acceder a textos en inglés de mayor reputación en Internet en 2021, los investigadores de OpenAI crearon una herramienta de reconocimiento de voz llamada Whisper. Los New York Times. Fue diseñado para transcribir audio de videos de YouTube, lo que le brinda a la empresa una gran cantidad de datos para capacitar a sus LLM.
Según se informa, OpenAI sabía que extraer datos de YouTube era legalmente cuestionable, pero lo hizo de todos modos, asumiendo que dicha acción sería un uso legítimo. El Times escribe que el presidente de OpenAI, Greg Brockman, participó personalmente en la recopilación de vídeos que fueron transcritos.
Uno podría imaginar que Google no estuviera muy contento con las acciones de OpenAI, pero eso habría sido hipócrita dado que Google también transcribió videos de YouTube para sus modelos de IA, violando potencialmente el material protegido por derechos de autor de los creadores.
El director ejecutivo de YouTube, Neal Mohan, dijo durante una entrevista con Bloomberg la semana pasada que los términos de servicio de la plataforma no permiten transcripciones no autorizadas ni la descarga de contenido de video. Cuando se le preguntó sobre la transcripción de OpenAI, dijo: «He visto informes de que puede haber sido utilizado o no. Yo mismo no tengo información».
El portavoz de Google, Matt Bryant, repitió las normas ToS y añadió que la empresa toma «medidas técnicas y legales» para evitar este tipo de prácticas no autorizadas «cuando tengamos una base legal o técnica clara para hacerlo». Google dijo que sus modelos de IA «están entrenados en algunos contenidos de YouTube» que están permitidos según acuerdos con los creadores.
El NY Times afirma que Google ha ampliado sus condiciones de servicio, otorgándole más derechos para utilizar datos de los consumidores, como Google Docs disponibles públicamente y reseñas de restaurantes en Google Maps, para los modelos de inteligencia artificial de la empresa. La política revisada se publicó el 1 de julio con la esperanza de que el fin de semana del Día de la Independencia actuara como una distracción.
También se dijo que Meta estaba considerando métodos turbios para obtener más datos para su formación LLM. El NY Times escribe que la empresa matriz de Facebook consideró recopilar datos protegidos por derechos de autor de Internet, incluso si eso significaba enfrentar demandas, ya que las negociaciones con los titulares de licencias llevarían demasiado tiempo.
Miles de organizaciones e individuos se quejan y presentan demandas contra grandes empresas de inteligencia artificial por el uso de su contenido sin pago ni reconocimiento. El New York Times es demandando OpenAI y Microsoft por utilizar sus artículos de noticias con derechos de autor. En febrero, OpenAI acusó a la publicación de pagarle a alguien para «cortar a tajos» su famoso chatbot y otros productos para generar evidencia engañosa que respalde estas afirmaciones.
Tope: Souvik Banerjee