AbiertoAI podría haber utilizado más de un millón de horas de datos transcritos de vídeos de YouTube para entrenar su último modelo de inteligencia artificial (IA), GPT-4, afirma un informe. Afirma además que el ChatGPT El fabricante se vio obligado a obtener datos a través de YouTube, ya que había agotado todo su suministro de recursos de texto y palabras para entrenar sus modelos de IA. La acusación, de ser cierta, puede generar nuevos problemas para la empresa de inteligencia artificial, que ya está librando múltiples demandas por utilizar datos protegidos por derechos de autor. Cabe destacar que un informe El mes pasado destacó que su tienda GPT contenía mini chatbots que violaban las pautas de la compañía.
en un informeThe New York Times afirmó que después de quedarse sin fuentes con palabras de texto únicas para entrenar sus modelos de inteligencia artificial, la compañía desarrolló una herramienta automática de reconocimiento de voz llamada Whisper para usarla para transcribir. YouTube videos y entrenar sus modelos usando los datos. OpenAI lanzó Whisper públicamente en septiembre de 2022, y la empresa de inteligencia artificial dijo que se capacitó con 6.80.000 horas de “datos supervisados multilingües y multitarea recopilados de la web”.
El informe alega además, citando fuentes anónimas familiarizadas con el asunto, que los empleados de OpenAI discutieron si el uso de los datos de YouTube podría violar las pautas de la plataforma y causarles problemas legales. Notablemente, Google prohíbe el uso de vídeos para aplicaciones independientes de la plataforma.
Finalmente, la empresa siguió adelante con el plan y transcribió más de un millón de horas de vídeos de YouTube y el texto se envió a GPT-4, según el informe. Además, el informe del NYT también alega que el presidente de OpenAI, Greg Brockman, estuvo directamente involucrado en el proceso y ayudó personalmente a recopilar datos de los videos.
Discurso En The Verge, el portavoz de OpenAI, Matt Bryant, calificó los informes como no confirmados y negó cualquier actividad de este tipo, diciendo: «Tanto nuestros archivos robots.txt como nuestros Términos de servicio prohíben la extracción o descarga no autorizada de contenido de YouTube». Otra portavoz, Lindsay Held, dijo a la publicación que utiliza «numerosas fuentes, incluidos datos disponibles públicamente y asociaciones para datos no públicos» como fuentes de datos. También añadió que la empresa de IA estaba estudiando la posibilidad de utilizar datos sintéticos para entrenar sus futuros modelos de IA.