OpenAI y Google supuestamente utilizaron transcripciones de YouTube para entrenar sus modelos de IA

La página de perfil de la aplicación YouTube. — Jack Wallen/ZDNET

Entrenamiento de modelos de inteligencia artificial. requiere una gran cantidad de datos para ayudarlos a comprender mejor el contexto de las consultas y, en última instancia, brindar mejores respuestas. En la búsqueda constante de más datos, tanto OpenAI como Google han recurrido al uso de vídeos de YouTube, creados por otros, para entrenar sus grandes modelos de lenguaje (LLM), The New York Times. reportado durante el fin de semana, citando a personas que afirman tener conocimiento de las actividades de las empresas.

En 2023, OpenAI desarrolló Whisper, una herramienta de reconocimiento de voz que ayudaría a la empresa a extraer YouTube, tomar audio de más de 1 millón de videos de YouTube y usarlo para informar a GPT-4, según fuentes del Times.

Mientras tanto, Google también transcribió vídeos de YouTube, según el informe. Es más, el gigante de las búsquedas cambió sus términos de servicio en 2023 para facilitar la búsqueda de documentos públicos de Google Docs, reseñas de restaurantes de Google Maps y otro contenido disponible públicamente para su uso en sus modelos de inteligencia artificial, según el Times.

También: ¿Tienes 10 horas? IBM le capacitará en los fundamentos de la IA, de forma gratuita

No es ningún secreto que Los modelos de IA requieren una gran cantidad de datos para funcionar de manera eficiente. Más datos, incluidos texto, audio y videos, brindan a los modelos la capacidad de comprender el contexto humano, la interacción humana y otros detalles críticos de comunicación que los hacen más efectivos.

Sin embargo, existe una tensión cada vez mayor entre las empresas que desarrollan esos modelos y los creadores de contenido. ¿Qué contenido, si corresponde, debería permitirse utilizar en el entrenamiento de modelos de IA? En un número cada vez mayor de casos, los medios de comunicación, los sitios web y los propios creadores de contenido están pidiendo a OpenAI, Google, Meta y otras empresas de tecnología que paguen por el acceso a su contenido antes de que puedan usarse para capacitar a los LLM.

En algunos casos, los fabricantes de modelos han cumplido y firmado acuerdos con empresas, incluidas Reddit y desbordamiento de pila, para obtener acceso a los datos del usuario. En otros casos, no tanto.

Según el informe del New York Times, por ejemplo, la supuesta transcripción de OpenAI de más de 1 millón de vídeos de YouTube puede entrar en conflicto con los propios términos de servicio de Google, que impiden que aplicaciones de terceros utilicen sus vídeos de YouTube con medios «independientes». Además, las decisiones de las empresas de supuestamente transcribir videos pueden ir en contra de las leyes de derechos de autor, ya que los creadores de YouTube que suben videos a YouTube aún conservan los derechos de autor del contenido que crean.

Para ser claros, el informe del Times no puede verificarse de forma independiente. Además, ni Google ni OpenAI reconocieron que habían recopilado datos de forma ilegal. Sin embargo, sabemos que las empresas se están quedando sin formas de acceder a más contenido. Lo que es peor, una fuente del Times dijo que es posible que las empresas de tecnología se queden sin contenido para incorporar a sus modelos para 2026.

También: Pasé un fin de semana con los cursos gratuitos de inteligencia artificial de Amazon y te recomiendo que tú también lo hagas.

¿Entonces que? Es completamente posible, y quizás probable, que las empresas de tecnología firmen acuerdos de licencia con creadores de contenido, medios de comunicación e incluso artistas musicales para acceder a sus creaciones. También es posible que cambien aún más sus términos de servicio o, peor aún, encuentren formas de eludir las leyes de privacidad para acceder a los datos que actualmente no pueden.

Está claro que la cantidad de datos que empresas como Meta, Google y OpenAI necesitarán en los próximos años no hará más que aumentar. Es fundamental que cuando accedan a esos datos, lo hagan de una manera que no dañe a las personas que crearon el contenido en primer lugar.

Enlace fuente