Según se informa, las publicaciones de Tumblr y WordPress se utilizarán para la capacitación en OpenAI y Midjourney

Según se informa, Tumblr y WordPress están listos para llegar a acuerdos para vender datos de usuarios a las empresas de inteligencia artificial OpenAI y Midjourney. 404 Medios informes que la empresa matriz de las plataformas, Automattic, está a punto de cerrar un acuerdo para proporcionar datos que ayuden a entrenar los modelos de las empresas de IA.

No está claro qué datos se incluirán, pero el informe sugiere que Automattic puede haberse extralimitado inicialmente. Una supuesta publicación interna del gerente de producto de Tumblr, Cyle Gage, sugiere que Automattic se preparó para enviar datos privados o relacionados con socios que no debían estar incluidos en el acuerdo. El contenido cuestionable supuestamente incluía publicaciones privadas en publicaciones de blogs públicos, blogs eliminados o suspendidos, preguntas sin respuesta (por lo tanto, no publicadas públicamente), respuestas privadas, publicaciones marcadas como explícitas y contenido de blogs de socios premium (como el antiguo sitio de música de Apple).

La publicación interna sugiere que los ingenieros de Automattic están preparando una lista de ID de publicaciones que deberían haberse excluido. No está claro si los datos ya se habían enviado a las empresas de inteligencia artificial. Engadget envió un correo electrónico a Automattic para solicitar comentarios sobre el informe y actualizaremos este artículo si recibimos respuesta.

Según se informa, la compañía planea lanzar una nueva herramienta de exclusión voluntaria el miércoles que pretende permitir a los usuarios bloquear a terceros, incluidas empresas de inteligencia artificial, para que no puedan capacitarse con sus datos. 404 Medios revisó una supuesta pregunta interna de preguntas frecuentes que Automattic preparó para la herramienta, que incluye la respuesta: “Si opta por no participar desde el principio, bloquearemos el acceso de los rastreadores a su contenido agregando su sitio a una lista de no permitidos. Si cambia de opinión más adelante, también planeamos informar a los socios sobre las personas que recientemente optan por no participar y solicitar que su contenido se elimine de fuentes anteriores y capacitaciones futuras”.

La frase, que lo describe como “pedir” a las empresas de inteligencia artificial que eliminen los datos, puede ser relevante.

Un supuesto documento interno del director de IA de Automattic, Andrew Spittle, en respuesta a una pregunta del personal sobre las garantías de eliminación de datos al utilizar la herramienta, explica: «Notificaremos periódicamente a los socios existentes sobre cualquiera que haya optado por no participar desde la última vez que proporcionamos una lista. Quiero que este sea un proceso continuo en el que defendamos regularmente que se excluya el contenido anterior según las preferencias actuales. Solicitaremos que el contenido se elimine de cualquier ejecución futura de capacitación. Creo que los socios respetarán esto basándose en nuestras conversaciones con ellos hasta este momento. No creo que ganen mucho en general manteniéndolo”.

Por lo tanto, si un usuario de Tumblr o WordPress solicita optar por no participar en la capacitación en IA, Automattic supuestamente «pedirá» y «abogará por» su eliminación. Y el jefe de IA de la empresa «cree» que a las empresas de IA les convendrá cumplir «según nuestras conversaciones». (¡Qué te parece eso para tranquilizarte!)

Los acuerdos de capacitación en datos de IA se han convertido en una oportunidad lucrativa para los sitios web que se mantienen a flote en la actualidad. El resbaladizo panorama editorial en línea. (Se informó que el personal de Tumblr reducido a una tripulación mínima a finales de 2023.) La semana pasada, Google llegó a un acuerdo con Reddit (antes de la oferta pública inicial de este último) para capacítese en la amplia base de conocimientos de la plataforma sobre contenido creado por usuarios. Mientras tanto, OpenAI lanzó un programa de asociación el año pasado para recopilar conjuntos de datos de terceros para ayudar a entrenar sus modelos de IA.

Enlace fuente