Los sitios web acusan a la startup de inteligencia artificial Anthropic de eludir sus normas y protocolos anti-scraping

[ad_1]

Freelancer ha acusado a Anthropic, la startup de inteligencia artificial que está detrás de los grandes modelos de lenguaje de Claude, de ignorar su protocolo robots.txt de «no rastrear» para extraer datos de sus sitios web. Mientras tanto, el director ejecutivo de iFixit, Kyle Wiens, dijo que Anthropic ha ignorado la política del sitio web que prohíbe el uso de su contenido para el entrenamiento de modelos de inteligencia artificial. Matt Barrie, director ejecutivo de Freelancer, dijo La información que ClaudeBot de Anthropic es «el scraper más agresivo con diferencia». Su sitio web supuestamente recibió 3,5 millones de visitas del rastreador de la empresa en un lapso de cuatro horas, lo que es «probablemente unas cinco veces el volumen del rastreador de IA número dos». Del mismo modo, Wiens publicado en X/Twitter El bot de Anthropic atacó los servidores de iFixit un millón de veces en 24 horas. «No solo están tomando nuestro contenido sin pagar, sino que están atando nuestros recursos de desarrollo», escribió.

En junio, Acusado por cable Otra empresa de inteligencia artificial, Perplexity, ha descubierto que puede rastrear su sitio web a pesar de la presencia del Protocolo de Exclusión de Robots, o robots.txt. Un archivo robots.txt normalmente contiene instrucciones para los rastreadores web sobre las páginas a las que pueden acceder y las que no. Si bien el cumplimiento es voluntario, los robots maliciosos lo han ignorado en la mayoría de los casos. De Wired pedazo Una startup llamada TollBit, que conecta a empresas de inteligencia artificial con editores de contenido, informó que no es solo Perplexity la que está eludiendo las señales de robots.txt. Si bien no mencionó nombres, Business Insider Dijo que se enteró de que OpenAI y Anthropic también estaban ignorando el protocolo.

Barrie dijo que Freelancer intentó rechazar las solicitudes de acceso del bot al principio, pero finalmente tuvo que bloquear por completo el rastreador de Anthropic. «Esto es un scraping atroz». [which] «Esto hace que el sitio sea más lento para todos los que operan en él y, en última instancia, afecta nuestros ingresos», agregó. En cuanto a iFixit, Wiens dijo que el sitio web ha configurado alarmas para el alto tráfico y que su gente se despertó a las 3 a. m. debido a las actividades de Anthropic. El rastreador de la empresa dejó de rastrear iFixit después de que agregó una línea en su archivo robots.txt que impide, en particular, el bot de Anthropic.

La startup de inteligencia artificial dijo La información que respeta robots.txt y que su rastreador «respetó esa señal cuando iFixit la implementó». También dijo que su objetivo es «lograr una interrupción mínima al ser cuidadoso con la rapidez con la que se realiza el seguimiento». [it crawls] los mismos dominios», por lo que ahora está investigando el caso.

Las empresas de inteligencia artificial utilizan rastreadores para recopilar contenido de sitios web que pueden utilizar para entrenar sus tecnologías de inteligencia artificial generativa. objeto de múltiples demandas Como resultado, los editores los acusan de infringir los derechos de autor. Para evitar que se presenten más demandas, empresas como OpenAI han estado llegando a acuerdos con editores y sitios web. Los socios de contenido de OpenAI, hasta ahora, incluyen Corporación de noticias, Medios de comunicación Voxel Tiempos financieros y RedditWiens de iFixit también parece abierto a la idea de firmar un acuerdo para los artículos del sitio web de instrucciones de reparación, y le dijo a Anthropic en un tweet que está dispuesto a tener una conversación sobre la concesión de licencias de contenido para uso comercial.

Si alguna de esas solicitudes accediera a nuestros términos de servicio, le habrían dicho que el uso de nuestro contenido está expresamente prohibido. ¡Pero no me pregunte a mí, pregúntele a Claude!

Si quieres conversar sobre la concesión de licencias de nuestro contenido para uso comercial, estamos aquí. imagen.twitter.com/CAkOQDnLjD

—Kyle Wiens (@kwiens) 24 de julio de 2024