Uno de los temas más importantes que afectan a la IA en la actualidad es la extracción de datos. Para entrenar modelos de IA, las empresas necesitan extraer datos de fuentes en línea para incorporarlos a los modelos de IA. Bueno, recibimos la noticia de que OpenAI ha extraído toneladas de datos de YouTube. Sin embargo, también recibimos la noticia de que incluso Google ha estado extrayendo datos de vídeos de YouTube.
En este momento, YouTube está salvaguardando los datos en su plataforma. Recientemente, el director ejecutivo de YouTube, Neal Mohan, advirtió a OpenAI contra el uso de sus videos para entrenar a Sora. Este es el extremadamente realista de OpenAI. AI generador de vídeo.
Bueno, según un informe del New York Times, OpenAI ha estado extrayendo datos de la enorme plataforma para compartir vídeos., pero no eran datos de video. La empresa utilizó una herramienta llamada «Whisper» que transcribe automáticamente el audio de los vídeos de YouTube y lo usa para entrenar el modelo. El modelo en cuestión es GPT-4. El informe afirma que OpenAI pudo extraer transcripciones de más de un millón de vídeos de YouTube.
OpenAI argumentó que está utilizando información de videos de YouTube disponibles públicamente. Por lo tanto, esto debería, aparentemente, estar justificado. Sin embargo, YouTube afirma que prohíbe cualquier descarga o extracción no autorizada de vídeos de YouTube. Esto significa que OpenAI podría estar infringiendo los términos de uso de YouTube. Si esto se convierte en un gran problema, seguramente veremos a las empresas pelear por esto en los tribunales en algún momento.
Google también está eliminando vídeos de YouTube
En un giro bastante grande, parece que Google también está extrayendo datos de vídeos de YouTube. Lo que lo hace significativo es el hecho de que Google es la empresa matriz de YouTube. Entonces, plantea preguntas. ¿YouTube sabe sobre esto? ¿Google le está diciendo a YouTube que guarde silencio al respecto? ¿YouTube buscará algún tipo de acción legal contra su empresa matriz?
Estas preguntas seguirán sin respuesta durante bastante tiempo. En cualquier caso, parece que Google ha realizado un pequeño cambio en sus términos de servicio. Este cambio, según el informe, permite a la empresa extraer datos de fuentes públicamente visibles como Google Docs, archivos de Google Sheet, reseñas de Google Maps, etc. Esto significa que la empresa quiere aumentar su recopilación de datos, y eso no es un buen augurio para los usuarios que desean preservar sus datos.
La gente lee los términos de servicio de las empresas para saber qué sucede con sus datos. Sin embargo, saber qué está pasando con sus datos no sirve de nada si las empresas pueden cambiar casualmente sus términos para permitirles eliminarlos.