La exitosa demanda del New York Times podría decidir el destino de genAI

Aquí vienen los abogados.

La semana pasada, el New York Times demandó a Microsoft y OpenAI, en el que Microsoft ha invertido 13 mil millones de dólares y contando, por violaciones de derechos de autor. El Veces reclamos Copilot basado en genAI de Microsoft y ChatGPT de OpenAI, que impulsa a Copilot, fueron entrenados utilizando millones de artículos sin el VecesEl permiso.

Él continúa discutiendo que esas herramientas (y el motor de búsqueda de Microsoft, Bing) “ahora compiten con los medios de comunicación como fuente de información confiable”.

El Veces No busca una cantidad específica de daños y perjuicios… todavía. Sin embargo, en última instancia, quiere mucho – “miles de millones de dólares en daños legales y reales” – debido a la “copia y uso ilegal de las obras excepcionalmente valiosas del Times”.

Más allá de eso, la presentación exige que Microsoft y OpenAI destruyan tanto los conjuntos de datos utilizados para entrenar las herramientas como las herramientas mismas.

Esta no es la primera demanda que alega que las empresas de inteligencia artificial violaron los derechos de autor al crear sus chatbots. y no será el último. Pero es el Gran Kahuna –el Veces se encuentra entre los periódicos más conocidos del mundo y el estándar de oro en periodismo. Y su medida podría llegar a ser una de las demandas más influyentes de la era de las computadoras e Internet, tal vez el mas influyente.

Esto se debe a que el resultado bien podría determinar el futuro de la IA generativa.

¿Quién está aquí? Es el Veces ¿Simplemente buscando dinero y utilizando la demanda para negociar un mejor acuerdo de derechos con Microsoft y OpenAI para el uso de sus artículos? ¿O está defendiendo los derechos de todos los titulares de derechos de autor, por pequeños que sean, contra el ataque de los titanes de la IA?

¿Qué hay en la demanda?

Para comprender mejor lo que implica, primero echemos un vistazo más de cerca a la tecnología subyacente involucrada y al traje en sí. Los chatbots GenAI como Copilot y ChatGPT están capacitados para grandes modelos de lenguaje (LLM), que incluyen enormes cantidades de datos, para que sean eficaces y útiles. Cuantos más datos, mejor. E igualmente importante es la calidad de los datos. Cuanto mejor sea la calidad de los datos, mejores serán los resultados de genAI.

Microsoft y OpenAI utilizan contenido disponible en Internet para entrenar sus herramientas, independientemente de si ese contenido es información de dominio público, datos de fuente abierta o material protegido por derechos de autor; todo es ingerido por las grandes y hambrientas fauces de genAI. Eso significa millones y millones de artículos de la Veces y muchas otras publicaciones se utilizan para la formación.

Microsoft y OpenAI sostienen que esos artículos y todo otro material protegido por derechos de autor están cubiertos por la doctrina del uso legítimo. El uso legítimo es un concepto legal extremadamente complicado y confuso, y existe un flujo interminable de demandas que determinan qué es uso legítimo y qué no. Está ampliamente abierto a la interpretación.

Por eso el Veces La demanda es muy importante. Determinará si todas las herramientas genAI, no sólo las de Microsoft y OpenAI, pueden seguir entrenándose en material protegido por derechos de autor. (El contenido protegido por derechos de autor es muy valioso porque tiende a ser el más amplio y preciso. Y hay mucho).

El uso legítimo de material protegido por derechos de autor generalmente se divide en dos categorías: comentarios y parodias. El uso del material debe ser “transformador”, en otras palabras; no puede simplemente copiar el material protegido por derechos de autor. Tiene que transformarlo de alguna manera.

Entonces, por ejemplo, si alguien está escribiendo una reseña de una novela, puede citar varias líneas para dejar claro un punto. En un informe de noticias, el uso legítimo le permite resumir un artículo sobre un informe de investigación médica y citarlo brevemente.

Microsoft y OpenAI dicen que el uso de material protegido por derechos de autor es transformador. Sostienen que el resultado de los chatbots transforma el contenido original en algo diferente. El Veces La demanda afirma que no hay una transformación real, que lo que Microsoft y OpenAI están haciendo es un robo absoluto. Afirma que las empresas no sólo están robando Veces contenido, sino también a su audiencia, y ganando miles de millones de dólares con ello. La gente no tendrá necesidad de leer el Veces ya sea en línea o en forma impresa, si pueden obtener toda la información del periódico de forma gratuita a través de un chatbot, alega la demanda.

Este párrafo resume la Veces argumentos: “No hay nada ‘transformador’ en el uso Los tiemposcontenido sin pago para crear productos que sustituyan Los tiempos y robarle audiencia. Debido a que los resultados de los modelos GenAI de los demandados compiten con los insumos utilizados para entrenarlos y los imitan estrechamente, copiarlos Veces funciona para ese propósito no es un uso legítimo”.

La demanda ofrece abundante evidencia para sus afirmaciones. Los ejemplos más atroces son muchos casos en los que ChatGPT plagia abiertamente artículos, incluida una investigación de 18 meses en cinco partes, ganadora del premio Pulitzer, sobre prácticas crediticias abusivas en la industria del taxi de la ciudad de Nueva York. La demanda afirma: «OpenAI no tuvo ningún papel en la creación de este contenido, pero con una mínima indicación, recitará gran parte del mismo palabra por palabra».

Por su parte, OpenAI acusó el lunes al Veces de manipular intencionalmente mensajes para que ChatGPT regurgite su contenido. «Incluso cuando utilizamos este tipo de indicaciones, nuestros modelos normalmente no se comportan como Los New York Times insinúa, lo que sugiere que le dieron instrucciones al modelo para que regurgitara o seleccionaron cuidadosamente sus ejemplos de muchos intentos», dijo la compañía en una publicación de blog.

El problema no es sólo el plagio. El Veces señala que gasta una enorme cantidad de dinero y esfuerzo en su organización de noticias, y que si la gente puede recibir las últimas noticias de forma gratuita (incluso si están parafraseadas por un chatbot) no tendrán necesidad de leer el periódico.

Más allá de eso, el editor descubrió que los chatbots de Microsoft y OpenAI toman información del periódico Cortador de cables sitio de revisión de productos, publicarlo y eliminar enlaces de referencia a los productos, que el Veces obtiene ingresos de.

«Los demandados no sólo copiaron el contenido del Times, sino que también lo alteraron eliminando enlaces a los productos, privando así al Times de la oportunidad de recibir ingresos por referencias y apropiándose de esa oportunidad para los demandados», argumenta la demanda.

Entonces, ¿quién tiene razón?

Esta no es una decisión difícil. La respuesta es simple. El Veces es correcto. Microsoft y OpenAI están equivocados. Microsoft y OpenAI están obteniendo un viaje gratis para utilizar material protegido por derechos de autor cuya creación requiere una enorme cantidad de tiempo y dinero, y utilizan ese material para obtener grandes ganancias. Si el tribunal falla en contra del Vecestitulares de derechos de autor en todas partes, desde gigantes como el Veces a escritores, artistas, fotógrafos y otros individuos, lucharán por sobrevivir mientras Microsoft, OpenAI y otros fabricantes de IA engordan con ganancias.

Una de las grandes ironías de esta demanda es que un joven Bill Gates se quejó enérgicamente cuando la gente pirateaba el primer producto de Microsoft, una versión de BASIC para la computadora personal Altair 8800, en lugar de pagar por él.

Esto fue en 1975, cuando la idea de pagar dinero por software era anatema para la mayoría de las personas que usaban las primeras computadoras personales. Reinaba un espíritu idealista de compartir y compartir por igual, especialmente entre aquellos que eran miembros del influyente Home Brew Computer Club.

Entonces un Gates enojado envió su “Carta abierta a los aficionados”al Home Brew Computer Club y a publicaciones relacionadas con la informática. Escribió, en parte:

“La cantidad de regalías que hemos recibido por las ventas a aficionados hace que el tiempo dedicado a Altair BASIC valga menos de 2 dólares la hora. Como la mayoría de los aficionados deben saber, la mayoría de ustedes roban su software… ¿A quién le importa si las personas que trabajan en él cobran?

“¿Quién puede permitirse el lujo de realizar un trabajo profesional a cambio de nada? ¿Qué aficionado puede poner? [three] ¿Años-hombre en programación, encontrando todos los errores, documentando su producto y distribuyéndolo de forma gratuita? … Más directamente, lo que haces es robar”.

No hay mucha diferencia entre lo que se quejaba Gates y lo que Microsoft está haciendo ahora. Gates tenía razón en aquel entonces. Microsoft y OpenAI están equivocados en este momento. Deberían llegar a un acuerdo con el Veces y otros titulares de derechos de autor o volver a entrenar su IA de una manera que no viole las leyes de derechos de autor. Y lo mismo ocurre con todos los demás creadores de IA.

Enlace fuente