Palma de la cara: La IA generativa devora enormes cantidades de datos y las empresas siempre necesitan contenido nuevo para desarrollar sus LLM y otros modelos de aprendizaje automático. El propietario de WordPress, Automattic, aparentemente está listo para proporcionar ese contenido por una tarifa. La compañía promete respetar la privacidad de los usuarios, pero es posible que ya haya proporcionado algunos datos privados a los socios de IA.
Automattic está trabajando en un acuerdo comercial con Midjourney y OpenAI y ya ha preparado un lote inicial de contenido para alimentar sus modelos. Una fuente interna anónima le dijo a 404 Media que los acuerdos son inminentes y que la documentación interna proporciona prueba de un proceso de intercambio de datos «desordenado» en uno de los principales productos de blogs de Automattic.
La empresa, fundada por Matt Mullenweg, posee las plataformas Tumblr y WordPress.com, el sitio de blogs con fines de lucro desarrollado sobre el software CMS de código abierto WordPress. Los datos del usuario son fundamentales para el desarrollo de la IA, ya que los modelos en lenguajes grandes son propensos a chisporrotear galimatías sin sentido cuando se les deja solos debido al llamado efecto de bucle de retroalimentación.
La fuente dijo que Automattic planea brindar derechos completos de exclusión voluntaria a los usuarios interesados en proteger sus datos públicos, incluidas publicaciones e imágenes. Sin embargo, publicaciones internas indican que Tumblr ya proporcionó a Midjourney y OpenAI un «volcado de datos inicial» de todo el contenido publicado públicamente entre 2014 y 2023. Además, un «error» provocó que Automattic compartiera datos privados de los usuarios de Tumblr con las dos empresas de IA como Bueno.
Después de que 404 Media hiciera público su informe, Automattic liberado una declaración sobre «proteger la elección del usuario» en el mundo de la IA en rápida evolución. El corredor de datos está «siguiendo de cerca» los recientes avances en la tecnología de IA y está analizando diligentemente «cómo trabajar» con las empresas de IA respetando al mismo tiempo la privacidad de los usuarios y el control de los datos.
Actualmente, Automattic bloquea los rastreadores de plataformas de inteligencia artificial «de forma predeterminada», incluidas las arañas de las empresas tecnológicas más grandes del mundo. WordPress.com y Tumblr ahora tienen configuraciones para «desalentar» el rastreo de datos por parte de empresas de inteligencia artificial, que están activadas de forma predeterminada si un usuario había desactivado previamente la indexación del motor de búsqueda.
Automatic admite que actualmente no existen leyes que obliguen a los rastreadores de IA a cumplir con esas preferencias de no indexación. Sin embargo, esto podría cambiar pronto con la nueva legislación pendiente en la Unión Europea. La compañía también confirma que está trabajando directamente con empresas de IA «seleccionadas», siempre que sus planes de trabajo se alineen con los principios de Automattic sobre la elección del usuario.