Google tiene la esperanza de poder pronto «reanudar» la capacidad de su herramienta de inteligencia artificial generativa multimodal, Gemini, para representar personas, según el fundador de DeepMind, Demis Hassabis. La capacidad de responder a solicitudes de imágenes de humanos debería volver a estar disponible en las “próximas semanas”, dijo hoy.
Google suspendió la capacidad de Gemini la semana pasada después de que los usuarios señalaran que la herramienta estaba produciendo imágenes históricamente incongruentes, como representar a los padres fundadores de Estados Unidos como un grupo o personas de diversidad, en lugar de solo hombres blancos.
Hassabis estuvo respondiendo preguntas sobre el problema del producto durante una entrevista en el escenario del Mobile World Congress en Barcelona hoy.
Cuando el moderador Steven Levy de Wired le pidió que explicara qué salió mal con la función de generación de imágenes, Hassabis eludió una explicación técnica detallada. En cambio, sugirió que el problema se debía a que Google no pudo identificar casos en los que los usuarios básicamente buscan lo que describió como una «representación universal». El ejemplo apunta a “los matices que conlleva la IA avanzada”, dijo también.
“Este es un campo con el que todos estamos luchando. Entonces, si usted, por ejemplo, incluye un mensaje que solicita: «dame una foto de una persona paseando a un perro o de una enfermera en un hospital», claro, en esos casos, claramente quieres una especie de «representación universal». Especialmente si consideras que, como Google, atendemos a más de 200 países, ya sabes, todos los países del mundo, por lo que no sabes de dónde vienen los usuarios, cuáles serán sus antecedentes o en qué contexto se encuentran. quieres mostrar una especie de rango universal de posibilidades allí”.
Hassabis dijo que el problema se reducía a una «característica bien intencionada» (fomentar una diversidad en las producciones de imágenes de Gemini) que se había aplicado «demasiado sin rodeos, en todas partes».
Las indicaciones que solicitan contenido sobre personajes históricos deberían «por supuesto» dar como resultado «una distribución mucho más estrecha que se puede devolver», añadió, insinuando cómo Gemini puede abordar las indicaciones para las personas en el futuro.
“Por supuesto, nos preocupamos por la precisión histórica. Por eso, hemos desconectado esa función mientras la arreglamos y, ya sabes, esperamos volver a tenerla en línea en el próximo, en muy poco tiempo. Las próximas dos semanas, las próximas semanas”.
En respuesta a una pregunta de seguimiento sobre cómo evitar que los malos actores, como los regímenes autoritarios que buscan difundir propaganda, se apropien indebidamente de las herramientas de IA generativa, Hassabis no tenía una respuesta sencilla. La cuestión es “muy compleja”, sugirió, y probablemente exija una movilización y una respuesta de toda la sociedad para determinar y hacer cumplir los límites.
“Es necesario realizar investigaciones y debates realmente importantes, también con la sociedad civil y los gobiernos, no solo con las empresas de tecnología. Es una cuestión técnico social que afecta a todos y debería involucrar a todos para discutirla. ¿Qué valores queremos que tengan estos sistemas? ¿Qué representarían? ¿Cómo se puede evitar que los malos actores accedan a las mismas tecnologías y, de qué estás hablando, es reutilizarlas para fines dañinos que no fueron previstos por los creadores de esos sistemas?
Refiriéndose al desafío de los modelos de IA de propósito general de código abierto, que Google también ofreceagregó: “Los clientes quieren usar sistemas de código abierto que puedan controlar completamente… Pero luego surge la pregunta: ¿cómo se puede garantizar que lo que la gente usa posteriormente no será perjudicial para esos sistemas a medida que se vuelven cada vez más poderosos?
“Creo que hoy en día no es un problema porque los sistemas aún son relativamente incipientes. Pero si avanzamos tres, cuatro o cinco años y empezamos a hablar de sistemas de próxima generación con capacidades de planificación y capaces de actuar en el mundo y resolver problemas y objetivos, creo que la sociedad realmente tiene que pensar seriamente en estas cuestiones: en qué ¿Qué sucede si esto prolifera y luego los malos actores, desde individuos hasta estados rebeldes, también pueden hacer uso de ellos?
Durante la entrevista, a Hassabis también se le preguntó su opinión sobre los dispositivos de IA y hacia dónde podría dirigirse el mercado móvil, ya que la IA generativa continúa impulsando nuevos desarrollos aquí. Predijo una ola de “asistentes inteligentes de próxima generación”, que son útiles en la vida cotidiana de las personas, en lugar de las cosas “efectivas” de las generaciones anteriores de asistentes de IA, y que pueden remodelar el hardware móvil que la gente elige llevar consigo.
«Creo que incluso habrá preguntas sobre cuál es el tipo de dispositivo correcto», dijo. “Dentro de más de cinco años, ¿el teléfono realmente tendrá el factor de forma perfecto? Tal vez necesitemos gafas o algunas otras cosas para que el sistema de inteligencia artificial pueda ver un poco el contexto en el que te encuentras y así ser aún más útil en tu vida diaria. Así que creo que hay todo tipo de cosas asombrosas por inventar”.