OpenAI: copiar, robar, pegar | Mundo de la informática – Solución Profesional Streaming de Audio & Video

En promedio, cada historia que publico es robada unas 20 veces. Por ejemplo, numerosos sitios fraudulentos copiaron y pegaron mi último columna sobre despidos por vacaciones más de una docena de veces el mismo día. ¿Por qué? Porque obtienen las opiniones de los lectores sin tener que pagarme un centavo.

Claro, los sitios automatizados de extracción de contenido no generan mucho dinero, pero al igual que el spam, el proceso tampoco les cuesta mucho. OpenAI, por otro lado, obtuvo 1.300 millones de dólares de ingresos en 2023y tampoco me pagaron ni un centavo.

Verás, al defenderse de la New York Times‘ Demanda por derechos de autor de OpenAIOpenAI afirma que «entrenar modelos de IA utilizando materiales de Internet disponibles públicamente es un uso legítimo.» Sí. Claro. He escuchado eso antes en las muy raras ocasiones en que un raspador de contenido ha respondido a los intentos de mi abogado de detenerlos.

El Veces sostiene que millones de sus artículos ahora se utilizan para entrenar chatbots que compiten con él. No está mal. OpenAI y otras empresas de IA generativa (genAI) están capacitando a sus grandes modelos de lenguaje (LLM) utilizando New York Times cuentos. Están ganando miles de millones con el trabajo de los redactores y editores del periódico sin pagar por ello.

OpenAI también afirma que el Times puede (y de hecho lo hizo) optar por no permitir que sus historias se utilicen en el LLM de ChatGPT. Pero, si ese fuera el caso, entonces ¿cómo ChatGPT plagia abiertamente dichos artículos como una investigación de 18 meses en cinco partes, ganadora del premio Pulitzer, sobre las prácticas crediticias abusivas en la industria del taxi de la ciudad de Nueva York?

Una forma de haberlo hecho, admite OpenAI, es a través de lo que llama memorización. «Se trata de un fallo poco común en el proceso de aprendizaje en el que avanzamos continuamente, pero es más común cuando un contenido concreto aparece más de una vez en los datos de entrenamiento, como si partes del mismo aparecen en muchos sitios web públicos diferentes».

Como, por ejemplo, en esos sitios piratas antes mencionados que copian y pegan historias. De hecho, OpenAI admite que la copia de la serie de taxis parece haber surgido «de artículos de hace años que han proliferado en múltiple tercero–fiesta sitios web«.

Yo llamo a esto «Lo hicieron en la primera defensa». No me impresiona.

Al mismo tiempo, OpenAI afirma que el Times «no contribuyó significativamente al entrenamiento de nuestros modelos existentes y tampoco tendría suficiente impacto para el entrenamiento futuro». Por favor. El conjunto de datos más ponderado en GPT-3, rastreo comúnlas tres principales fuentes de datos son Wikipedia, una base de datos de patentes de EE. UU. y… el New York Times.

Como dice Victor Tangermann, un Futurismo.com El redactor del personal escribió recientemente: «Todo el modelo de negocio de OpenAI se basa en absorber la mayor cantidad de datos como puede encontrar, a menudo incluyendo material protegido por derechos de autor.”

¿No compras su opinión? ¿Qué tal los propios argumentos de OpenAI ante el Parlamento del Reino Unido? Allí, la compañía dijo: “Dado que hoy en día los derechos de autor cubren prácticamente todo tipo de expresión humana (incluyendo publicaciones de blogs, fotografías, publicaciones en foros, fragmentos de código de software y documentos gubernamentales), sería Es imposible entrenar los principales modelos de IA actuales sin utilizar materiales protegidos por derechos de autor.«

Ahora bien, no tengo ninguna objeción a que OpenAI utilice materiales protegidos por derechos de autor. Ninguno en absoluto. No soy el Times, pero tengo en mi haber más de 10.000 artículos en publicaciones de alta tecnología. No dudo que OpenAI esté utilizando mi trabajo. OpenAI es bienvenido a usarlo. \

Justo. Pagar. A mí.

Para citar al difunto escritor de ciencia ficción, Harlan Ellison, en su famosa perorata: Paga al escritor«Quieren todo a cambio de nada. No pasarían ni cinco segundos sin que les pagaran. Y se quejarán de cuánto les pagan y querrán más. ¡¿Debería hacer un obsequio para Warner Brothers?! ¿Qué? ¿Warner Brothers con un parche en el ojo y un vaso de hojalata en la calle? Joder, no. Siempre quieren que el escritor trabaje gratis».

Lo mismo ocurre con OpenAI y otras empresas genAI. Las editoriales, las publicaciones, los escritores y los editores hacen el trabajo y quieren beneficiarse sin que nadie le dé ni un centavo.

Hemos recorrido este camino antes. En la década de 1990, los periódicos y revistas comenzaron un largo declive porque no podían lograr obtener ganancias mediante la publicación en Internet. Por eso Google, que fue capaz de transformar nuestro contenido en beneficios a través de la publicidad, ganó miles y miles de millones mientras las publicaciones de noticias siguen perdiendo dinero.

No veo que los editores vuelvan a cometer ese error. Esta vez nos pagarán. Y si Microsoft y OpenAI no ganan tantos miles de millones como esperaban, no lloraré por ellos.

Por supuesto, podríamos fracasar. Si eso sucede, bueno, podremos ver cómo será ese futuro. Cory Doctorow, bloguero y escritor de ciencia ficción, acuñó la palabra mordaz «Enshittificación». Con esto se refiere a la caída en la calidad de los sitios y la información en línea.

Eso no es sólo una opinión. Investigaciones recientes muestran que «Los resultados de búsqueda de Google son cada vez menos útiles y están llenos de más sitios web spam.» Cada vez más contenido se basa en la optimización de motores de búsqueda y tonterías creadas por IA. Al mismo tiempo, la disminución de la calidad en relación con la cantidad resulta en menos ingresos para las publicaciones y los escritores. Esto, a su vez, significa que habrá aún menos historias que valga la pena. en cualquier lugar para que los motores genAI aprendan.

Si OpenAI y los de su calaña son sabios, comenzarán a compartir la riqueza con los creadores de contenido. Es realmente el único camino a seguir a largo plazo para todos nosotros, ya seamos multimillonarios tecnológicos o escritores independientes.

Enlace fuente