Reddit está llevando antrópico a la corte, acusando a la compañía de inteligencia artificial de sacar contenido de los usuarios de la plataforma sin permiso y usarlo para entrenar sus modelos Claude AI. El pleitopresentada en un tribunal estatal de California, afirma que Anthrope hizo más de 100,000 solicitudes no autorizadas a los servidores de Reddit, incluso después de declarar públicamente que se había detenido.
El caso se basa en la afirmación de Reddit de que Anthrope ignoró las restricciones técnicas y sus términos de servicio. Según la queja, Anthrope omitió protecciones como el archivo Robots.txt del sitio, que se supone que evita el raspado automático. Reddit también acusa a Anthrope de violar la privacidad del usuario mediante la recopilación y el uso de publicaciones personales, incluidos contenido eliminado, para fines comerciales.
Reddit dice que ofrece acceso estructurado a sus datos a través de acuerdos de licencia con empresas como OpenAI y Google. Estas ofertas incluyen condiciones sobre el uso de contenido, salvaguardas de privacidad y eliminación de datos. Según la plataforma, Anthrope se negó a seguir un acuerdo formal y, en su lugar, raspó el sitio directamente, evitando las tarifas de licencia y omitiendo las protecciones de los usuarios en el proceso.
La demanda destaca un trabajo de investigación de 2021 en coautoría del CEO Anthrope Dario Amodei, que señaló a Reddit como una rica fuente de datos de capacitación para modelos de idiomas. Reddit también incluyó ejemplos en los que Claude parecía reproducir publicaciones de Reddit casi palabra por palabra, incluso haciéndose publicaciones que habían sido eliminadas por los usuarios. Eso, dice la compañía, muestra que Anthrope no pudo colocar las barandillas para respetar la privacidad del usuario o los derribos de contenido.
Reddit está buscando daños financieros y una orden judicial que impida que Anthrope use contenido de Reddit en futuras versiones de sus modelos.
Anthrope ha respondido, alegando que no está de acuerdo con las reclamaciones y los planes para defenderse. Sin embargo, esta no es la primera vez que la corporación tiene una presión legal sobre cómo recopila datos de capacitación.
En agosto de 2024, un grupo de autores presentó un demanda colectora acusando antrópico de usar su trabajo con derechos de autor sin permiso. Afirmaron que la empresa capacitó a sus modelos en libros y otros materiales escritos sin su consentimiento y luego solicitaron una compensación para usar su contenido.
A caso similar Desde octubre de 2023 involucró Universal Music Group y otros editores. Demandaron a Anthrope por afirmaciones de que su chatbot Claude estaba reproduciendo letras de canciones con derechos de autor. Las compañías de música argumentaron que este uso violaba sus derechos de propiedad intelectual y le pidieron al tribunal que bloqueara un mayor uso de sus letras.
A diferencia de esas demandas, el caso de Reddit no se centra en los derechos de autor. En cambio, se centra en incumplimiento de contrato y competencia injusta. El argumento de Reddit es que los datos tomados de su sitio no son solo público, se rige por los términos que Anthrope ignoró a sabiendas. Esa distinción podría hacer que el caso sea importante para otras plataformas que alojan el contenido del usuario pero desean controlar cómo se usa en los sistemas de IA comerciales.
Reddit también acusa a antrópico de engañar al público. La demanda apunta a declaraciones públicas de Anthrope alegando que respeta las reglas de raspado y los valores de la privacidad del usuario, que según las acciones de la compañía contradicen.
«Por su parte, a pesar de lo que dice su material de marketing, a Anthrope no le importa las reglas o usuarios de Reddit», dice la demanda. «Cree que tiene derecho a tomar el contenido que quiera y usar ese contenido, como desee, con impunidad».
Después de que se presentó la demanda, las acciones de Reddit subieron casi un 67%, una señal de que los inversores apoyaron la medida. El resultado del caso podría establecer un precedente sobre cómo las empresas logran un equilibrio entre el contenido abierto de Internet y los derechos de los usuarios y los propietarios de contenido.
A medida que más empresas de IA dependen de grandes volúmenes de datos en línea, las preguntas legales y éticas sobre el raspado están cada vez más difíciles de ignorar. El caso de Reddit se suma a la creciente lista de demandas que conforman cómo se desarrolla esta próxima ola de desarrollo de IA.
(Foto por Brett Jordan)
Ver también: Ética en automatización: abordar el sesgo y el cumplimiento en la IA

¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Verificar AI y Big Data Expo que tiene lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluidos Conferencia de automatización inteligente, Bloqueo, Semana de transformación digitaly Cyber Security & Cloud Expo.
Explore otros próximos eventos y seminarios web tecnológicos empresariales con TechForge aquí.