OpenAI y Google supuestamente utilizaron transcripciones de vídeos de YouTube para entrenar sus modelos de IA

OpenAI y Google entrenaron sus modelos de IA en texto transcrito de vídeos de YouTube, lo que podría violar los derechos de autor de los creadores, según . El informe, que describe hasta dónde han llegado OpenAI, Google y Meta para maximizar la cantidad de datos que pueden alimentar a sus IA, cita a numerosas personas con conocimiento de las prácticas de las empresas. Se produce pocos días después de que el director ejecutivo de YouTube, Neal Mohan, dijera en una entrevista con que el supuesto uso de vídeos de YouTube por parte de OpenAI para entrenar su nuevo generador de texto a vídeo, Sora, .

De acuerdo con la AHORAOpenAI utilizó su herramienta de reconocimiento de voz Whisper para transcribir más de un millón de horas de vídeos de YouTube, que luego se utilizaron para entrenar GPT-4. Anteriormente informó que OpenAI había utilizado videos y podcasts de YouTube para entrenar los dos sistemas de IA. Según se informa, el presidente de OpenAI, Greg Brockman, estaba entre las personas de este equipo. Según las reglas de Google, no se permite «el raspado o la descarga no autorizada de contenido de YouTube», dijo Matt Bryant, portavoz de Google. AHORAy también dijo que la compañía no tenía conocimiento de tal uso por parte de OpenAI.

El informe, sin embargo, afirma que había personas en Google que sabían pero no tomaron medidas contra OpenAI porque Google estaba usando videos de YouTube para entrenar sus propios modelos de IA. Google dijo AHORA sólo lo hace con vídeos de creadores que han aceptado participar en un programa experimental. Engadget se ha puesto en contacto con Google y OpenAI para hacer comentarios.

El AHORA El informe también afirma que Google modificó su política de privacidad en junio de 2022 para cubrir más ampliamente su uso de contenido disponible públicamente, incluidos Google Docs y Google Sheets, para entrenar sus modelos y productos de inteligencia artificial. Bryant dijo AHORA que esto sólo se hace con el permiso de los usuarios que optan por las funciones experimentales de Google, y que la empresa «no comenzó a capacitarse sobre tipos adicionales de datos basados en este cambio de idioma».

Enlace fuente