Red social bluesky recientemente publicó una propuesta sobre Github Al revisar nuevas opciones, podría dar a los usuarios para indicar si quieren que sus publicaciones y datos sean raspados para cosas como la capacitación generativa de IA y el archivo público.
CEO Jay Graber discutió la propuesta a principios de esta semana, Mientras estaba en el escenario en South by Southwest, pero atrajo una nueva atención el viernes por la noche, después de ella Publicado sobre esto en Bluesky. Algunos usuarios reaccionaron con alarma a los planes de la compañía, que vieron como una inversión de la insistencia anterior de Bluesky de que no venderá datos de usuario a los anunciantes y No capacitará a la IA en las publicaciones de los usuarios.
«¡Oh, demonios no!» el boceto de usuario escribió. “La belleza de esta plataforma era el no compartir información. Especialmente Gen ai. ¿No te cuevas ahora «?
Agarradera respondió que las compañías generativas de IA «ya raspan datos públicos de toda la web», incluso de Bluesky, ya que «todo en Bluesky es público como un sitio web es público». Entonces ella dijo que Bluesky está tratando de crear un «nuevo estándar» para gobernar ese raspado, similar al robots.txt Archifique que los sitios web usen para comunicar sus permisos a los rastreadores web.
Los debates sobre el entrenamiento de IA y los derechos de autor tienen Robots arrastrados.txt en el centro de atenciónentre otras cosas, destacando el hecho de que no es legalmente exigible. Bluesky enmarca su estándar propuesto como uno que tendría un «mecanismo y expectativas» similares, proporcionando «un formato legible por máquina, que se espera que los buenos actores permanezcan, y conlleva un peso ético, pero no es legalmente exigible».
Según la propuesta, los usuarios de la aplicación Bluesky u otras aplicaciones que usan el subyacente Atroprotocolopodría entrar en su configuración y permitir o no permitir el uso de sus datos de Bluesky en cuatro categorías: IA generativa, puente de protocolo (es decir, conectar diferentes ecosistemas sociales), conjuntos de datos a granel y archivo web (como la máquina Wayback de Internet Archive).
Si un usuario indica que no quiere que sus datos se usen para capacitar a la IA generativa, la propuesta dice: «Se espera que las empresas y los equipos de investigación que construyan conjuntos de capacitación de IA respeten esta intención cuando lo ven, ya sea al raspar sitios web o haciendo transferencias masivas utilizando el protocolo en sí».
Molly White, quien escribe el boletín de cita necesario y Web3 va solo un excelente blog, describió esto Como «una buena propuesta», y dijo que era «extraño ver a las personas que llaman a Bluesky», ya que no es tanto «acogedor en el raspado de IA», sino «tratar de agregar una señal de consentimiento para permitir a los usuarios comunicar las preferencias para el raspado que ya está sucediendo».
“Creo que la debilidad con esto y [Creative Commons’] La propuesta similar de «señales de preferencia» es que confían en los raspadores para respetar estas señales de algún deseo de ser buenos actores «, continuó White. «Ya hemos visto a algunas de estas compañías volar más allá de los robots.txt o el material pirata para rasparse».