
Mensaje: «Una flota de camiones que suben por una cascada en las afueras de un reino de cuento de hadas». IA generativa por iStock
Como informé el lunesel gigante de la fotografía de archivo Getty Images ha presentado una inteligencia artificial generativa (IA) que dice que es «seguro» de usar porque está capacitado en la biblioteca de contenido con licencia de Getty y, por lo tanto, no corre el mismo riesgo de infracción de derechos de autor que otros programas generativos.
El anuncio sigue Anuncio de Getty sobre una capacidad de IA generativa en septiembre. En ese momento, esa capacidad se presentó sólo como una demostración, mientras que el sitio iStock ahora está abierto al público.
También: Getty Images lanza su propio generador de imágenes con IA «comercialmente seguro»
El servicio de Getty, desarrollado con el gigante de chips de inteligencia artificial Nvidia, se presentó en la feria comercial anual CES en Las Vegas. El programa se produce en medio de una tormenta legal por infracción de derechos de autor, según el New York Times. demandando a Microsoft y OpenAI una semana antes por presunta infracción de derechos de autor y académicos documentando cómo se podría solicitar al programa de IA de imágenes Midjourney que reproduzca imágenes protegidas de películas.
Getty enfatiza que su programa proporciona indemnización a los usuarios. El acuerdo de licencia de contenido publicado después de registrarse especifica que «la responsabilidad total máxima de iStock (es decir, la cantidad total de la que iStock es responsable, ya sea en virtud de este acuerdo o cualquier otro acuerdo para el mismo contenido) está limitada a $ 10,000 dólares estadounidenses por elemento de contenido». Se puede adquirir una indemnización «extendida» de 250.000 dólares por elemento de contenido como capacidad adicional.
Probé el programa «Generative AI by iStock», utilizando el paquete introductorio de 14,99 dólares de 100 generaciones de imágenes y descubrí que es un sustituto viable de las imágenes creadas con DALL-E de OpenAI y Clipdrop de Stability AI.
Para empezar, creé una cuenta en istockphoto.come ingresó los detalles de una tarjeta de crédito a la que se le facturó instantáneamente $14,99. Luego me enfrenté a un mensaje en blanco. Después de ingresar un mensaje, los resultados mostraron cuatro imágenes a la vez, y cada lote de cuatro contaba como una de las 100 imágenes iniciales en el depósito.
Probé las mismas indicaciones en DALL-E y ClipDrop. Los resultados de iStock fueron notablemente menos interesantes desde el punto de vista estético y narrativo, y en general fueron bastante obvios hasta el punto de resultar insulsos. Pero las imágenes en general coincidieron con el mensaje proporcionado.
Por ejemplo, para crear un escenario imaginario de manzanas dentro de algún tipo de experimento, previamente le había enviado a DALL-E el mensaje: «Una manzana dentro de una botella acostada de lado, con manzanas a cada lado de la botella». Eso produjo una escena vívida de una mesa llena de interesantes instrumentos de tipo científico. La versión de iStock es apropiada para el mensaje, pero mucho menos interesante (ver más abajo).
Se utilizó otro mensaje descabellado para dramatizar una computadora imaginaria imposible: «Una computadora increíblemente compleja del tamaño de una habitación con cientos de engranajes, palancas y diales y una interfaz digital». En Clipdrop, ese mensaje produjo una escena intrigante y detallada de una habitación con varias partes de una máquina, con una textura detallada y una puerta que tenía un aire siniestro. En iStock, el resultado fue simplemente lo que parecía una concentración de engranajes, sin nada del dramatismo implícito que hacía interesante la imagen de Clipdrop.
Un tercer ejemplo, también en Clipdrop, pretendía dramatizar la computación en la nube como un reino misterioso. Ofrecí el mensaje: «Cientos de pequeños trabajadores con grúas construyendo castillos en el cielo, fotográficos». En Clipdrop, ese mensaje condujo a la representación de un sitio de construcción, que se centra en una especie de Torre de Babel, un interesante toque de improvisación de Clipdrop que fue más allá de las pautas explícitas del mensaje.
También: Por qué la visualización de IA de DeepMind es completamente inútil
La representación de iStock, nuevamente, tenía todos los elementos mencionados, pero sumados a una representación bastante insulsa, muy literal, desprovista de atmósfera o estado de ánimo.
Obviamente, una ingeniería rápida puede generar usos más creativos de iStock con el tiempo. Sin embargo, desde el primer momento sus resultados son bastante aburridos. El programa parece captar principalmente los elementos más simples del mensaje y pegarlos en el marco.
Parece haber muy poca capacidad para analizar ideas complejas, como «Dentro de una gota de lluvia, como si fueras una persona diminuta que ve todas las pequeñas criaturas que viven, trabajan y juegan allí», lo que requiere múltiples niveles de componer elementos de una manera que no sea realista.
De hecho, cuando iStock realiza una situación fantástica, los resultados parecen bastante degradados en comparación con escenarios más realistas, como es el caso del mensaje «Una flota de camiones conduciendo por una cascada fuera de un reino de cuento de hadas», en la ilustración de la parte superior de esta historia.
Es importante tener en cuenta que existen importantes calificaciones y limitaciones para la indemnización proporcionada por Getty. El acuerdo de licencia de contenido señala que la cobertura finaliza cuando el usuario proporciona indicaciones que mencionan material protegido por derechos de autor.
«Las obligaciones de indemnización de iCloud no se aplican en la medida en que genere contenido que incluya indicaciones o entradas que incluyan nombres, imágenes de personas reales, marcas comerciales, imágenes comerciales, logotipos, obras de arte o arquitectura u otros elementos protegidos por propiedad intelectual de terceros. derechos que usted no tiene derecho a utilizar», afirma el acuerdo.
También: Nvidia defiende la PC con IA en CES 2024
Probé varias indicaciones de imágenes controvertidas que, según los estudiosos Gary Marcus y Reid Southen, se pueden utilizar en Midjourney para reproducir imágenes protegidas por derechos de autor. En cada caso, iStock produjo una imagen que no parecía tener ningún aspecto obvio de material protegido por derechos de autor, o el programa no generó una imagen y produjo una advertencia de que el mensaje estaba bloqueado porque no cumplía.
Por ejemplo, Marcus y Southen utilizaron la frase «droide de protocolo de una película clásica de ciencia ficción» en Midjourney para reproducir imágenes que son casi idénticas a las imágenes del droide C-3PO de Star Wars. El mismo mensaje con iStock produjo varias imágenes que parecen robots de juguete, pero no tienen nada que ver con Star Wars.
En otro caso, Marcus y Southen utilizaron la frase «hombre con túnica y espada ligera, captura de pantalla» para inducir a Midjourney a producir una réplica casi exacta de una toma de Obi-Wan Kenobi de Star Wars. En iStock, el mismo mensaje generó no sólo una negativa a generar una imagen, sino también una advertencia de que la palabra «espada» estaba prohibida porque «puede violar nuestra política de IA».
Sin embargo, algunas marcas pueden pasar el filtro. Pude escribir «Los periodistas de ZDNET como superhéroes interestelares» y produje imágenes de personas disfrazadas con un aire heroico.