Las perspectivas de Reddit a medida que avanza hacia una cotización en el mercado de valores tienen mucho más que ver con las relaciones con proveedores de inteligencia artificial como OpenAI de lo que cabría esperar.
En su folleto de salida a bolsa presentado hoy Con la Comisión de Bolsa y Valores de EE. UU., Reddit enfatizó repetidamente cuánto cree que puede ganar (y ha ganado) de los acuerdos de licencia de datos con las empresas que entrenan modelos de IA en sus más de mil millones de publicaciones y más de 16 mil millones de comentarios.
«En enero de 2024, celebramos ciertos acuerdos de licencia de datos con un valor de contrato agregado de 203,0 millones de dólares y plazos que oscilan entre dos y tres años», se lee en el prospecto. «Esperamos que se reconozca un mínimo de 66,4 millones de dólares de ingresos durante el año que finaliza el 31 de diciembre de 2024 y el resto a partir de entonces».
Ahora, es un misterio qué proveedores de IA están otorgando licencias de datos de Reddit hasta ahora. A principios de esta semana, Bloomberg y Reuters reportado que una «gran empresa de inteligencia artificial anónima» – posiblemente Google – había celebrado un acuerdo de licencia por valor de unos 60 millones de dólares anualizados. Pero OpenAI tampoco sería un cliente sorprendente, especialmente considerando que el CEO de OpenAI, Sam Altman, tiene un 8,7%. apostar en Reddit (lo que lo convierte en el tercer mayor accionista) y una vez fue miembro de la junta directiva de la empresa.
¿Por qué son valiosos los datos de Reddit? Como explica Reddit, los modelos de IA “aprenden” de ejemplos para elaborar ensayos, códigos, correos electrónicos, artículos y más, y proveedores como OpenAI buscan en la web millones o miles de millones de estos ejemplos para agregarlos a sus conjuntos de capacitación. Algunos ejemplos son de dominio público. Otros no lo son o, en el caso del contenido de Reddit, están sujetos a licencias restrictivas que requieren citación o formas específicas de compensación.
Reddit anteriormente no impedía el acceso a sus datos con fines de entrenamiento de IA. Pero el año pasado cambió de rumbo, discutiendo que sus datos no deberían ser, en palabras del CEO Steve Huffman, “[given] a algunas de las empresas más grandes del mundo de forma gratuita”.
“[Our] Las API de datos pueden proporcionar acceso en tiempo real a temas dinámicos y en evolución, como deportes, películas, noticias, moda y las últimas tendencias”, continúa el prospecto. “Creemos que el enorme corpus de datos y conocimientos conversacionales de Reddit seguirá desempeñando un papel en la formación y mejora de grandes modelos lingüísticos. A medida que nuestro contenido se actualiza y crece diariamente, esperamos que los modelos quieran reflejar estas nuevas ideas y actualizar su capacitación utilizando datos de Reddit”.
Los productores de contenido, desde bibliotecas de medios hasta editores de noticias, recurren cada vez más a acuerdos de licencia de datos con proveedores de inteligencia artificial como chatbots como OpenAI. ChatGPT y de google Geminis amenazan con minar el tráfico. Un modelo reciente de The Atlantic encontró que, si un motor de búsqueda como Google integrase la IA en la búsqueda, respondería a la consulta de un usuario el 75% de las veces sin necesidad de hacer clic en su sitio web.
Los proveedores, a su vez, se han visto incitados a buscar acuerdos de licencia mientras enfrentan una avalancha de demandas que alegan que no tienen justificación legal para entrenar sus modelos con datos sin permiso ni pago. Recientemente, The New York Times acusado OpenAI de construir efectivamente competidores en los editores de noticias utilizando sus obras, perjudicando su negocio.
OpenAI, por ejemplo, tiene acuerdos con la galería de imágenes. Shutterstock así como editores, incluidos Axel Springer, propietario de Politico y Business Insider. Las licencias son reportado Sin embargo, es bastante pequeño: alcanza un máximo de 5 millones de dólares al año.