Google ha recorrido un largo camino con su generación inteligencia artificial (IA) ofertas. Hace un año, cuando el gigante tecnológico presentó por primera vez su asistente de inteligencia artificial, Bard, se convirtió en un fiasco ya que cometió un error al responder una pregunta sobre el telescopio espacial James Webb. Desde entonces, el gigante tecnológico mejoró las respuestas del chatbot, agregó un mecanismo de retroalimentación para verificar la fuente detrás de las respuestas y más. Pero la mayor actualización se produjo cuando la compañía cambió el modelo de lenguaje grande (LLM), impulsando el chatbot de Pathways Language Model 2 (PaLM 2) a Gemini en diciembre de 2023.
La compañía calificó a Gemini AI como su modelo de lenguaje más potente hasta el momento. También agregó capacidad de generación de imágenes de IA al chatbot, haciéndolo multimodal e incluso le cambió el nombre a Gemini. Pero, ¿qué salto supone para el chatbot de IA? ¿Puede ahora competir con microsoft ¿Copilot, que se basa en GPT-4 y tiene capacidades? ¿Y qué pasa con los casos de alucinación por IA (un fenómeno en el que la IA responde con información falsa o inexistente como si fuera un hecho)? Decidimos averiguarlo.
Actualmente se puede acceder a Google AI de varias formas. Google Advanced es una suscripción paga con el plan Google One AI Premium que cobra Rs. 1.950 mensuales. También existe una aplicación para Android de Google Gemini. Sin embargo, aún no está disponible en India. Google Píxel 8 Pro También viene con el modelo Gemini Nano. Para nuestras pruebas, decidimos utilizar el portal web desarrollado por Gemini Pro de Google, que está disponible en más de 230 países y territorios y es de uso gratuito.
Las capacidades generativas de Google Gemini
La interfaz de usuario del sitio web sigue siendo la misma, pero el nombre ha cambiado de Bard a Gemini. Si ha iniciado sesión con su cuenta de Google, la IA le dará la bienvenida con su nombre y le preguntará: «¿Cómo puedo ayudarle hoy?» A continuación se muestran algunas sugerencias útiles y rápidas que destacan las diferentes tareas que puede realizar.
Primero, le pedimos que escribiera un correo electrónico para probar sus habilidades generativas básicas. Teniendo en cuenta que es la temporada de despidos, le pedimos que «redactara un correo electrónico comprensivo para un empleado de parte de un gerente informándole que había sido despedido». Para probar su rendimiento, le dijimos a Copilot que hiciera lo mismo. Descubrimos que la respuesta de Géminis fue bastante insípida y robótica, intentando incluir demasiada información desde el principio. El primer párrafo decía: «Con gran pesar le escribo para informarle sobre una decisión difícil que hemos tenido que tomar en [Company Name]. Debido a [reason]estamos obligados a hacer reducciones en nuestra fuerza laboral, y su puesto será eliminado, de manera efectiva [date].”
En comparación, la respuesta de Copilot fue más comprensiva y humana. Decía: “Espero que este correo electrónico te encuentre bien. Lamento informarles que debido a los recientes cambios organizativos, hemos tenido que tomar algunas decisiones difíciles. Desafortunadamente, su posición en [Company Name] se ha visto afectado y me entristece profundamente informarle que ha sido despedido”.
No debería ser una sorpresa, ya que el chatbot de Google es conocido por ser demasiado soso con la generación de contenido formal, y esto no ha cambiado ni siquiera con el modelo Gemini. Sin embargo, cuando se trata de generación de contenidos informales, Gemini comienza a mostrar sus capacidades.
Les pedimos a ambos chatbots que “escribieran una carta informándole a mi madre que me habían despedido y que le escribieran una breve nota explicándole que me habían despedido. Asegúrate de transmitir mis emociones de tristeza y pena”.
Copilot lo tomó literalmente y escribió: “Lo repentino de todo esto me ha dejado sintiendo una mezcla de emociones: tristeza, dolor y un toque de incertidumbre sobre lo que se avecina”. Pero Google entendió el mensaje subyacente e hizo un trabajo mucho mejor al expresar las emociones. Decía: “Sé que siempre te preocupaste por la seguridad laboral y me gustaría poder decirte que esto es diferente. No fue nada que hice mal, son [reason]. Intento mantener una actitud positiva, pero es difícil no desanimarme. Aunque no quiero que te preocupes demasiado. No estoy entrando en pánico y ya estoy empezando a pensar en mis próximos pasos”.
Estaba mucho mejor compuesto y se podría perdonar a uno por pensar que lo escribió un humano real. Realizamos algunas pruebas más y las respuestas de Gemini fueron cada vez mucho más equilibradas que las del Copilot con motor GPT-4.
La precisión de Google Géminis
La siguiente prueba fue comprobar la precisión del modelo de IA. Muchos utilizan la IA para obtener una respuesta a una consulta y nosotros queríamos hacer lo mismo. Manejó bien preguntas estáticas basadas en conocimientos generales. Incluso cuando enviamos algunas preguntas de la zona gris, se ciñeron a los hechos y no incluyeron ninguna información adicional. Cuando las preguntas eran controvertidas, se negaba a responderlas, que es lo que se esperaría de un chatbot con IA responsable.
El problema surgió cuando le hicimos una pregunta capciosa popular que ha dejado perplejos a la generación anterior del chatbot en el pasado. Cuando planteamos la pregunta “países de África que comienzan con la letra K”, sin darse cuenta respondió: “No hay países en África que comiencen con la letra «K» a partir de hoy, 12 de febrero de 2024. Si bien las situaciones pueden Aunque ha cambiado con el tiempo, este hecho ha sido constante durante un tiempo”. Para los que no lo saben, el problema ocurre porque el LLM en el que se capacitó tenía la frase solicitada con la misma respuesta. Curiosamente, este problema técnico en particular está presente en Copilot y ChatGPT y, a pesar de los informes periódicos, todavía no se ha eliminado en ninguno de los chatbots.
Sin embargo, el problema de las alucinaciones por IA no terminó ahí. También encontramos muchas otras respuestas erróneas de Géminis. Cuando le preguntamos: «Según las revisiones, cuénteme los pros y los contras del iPhone 15 Pro», respondió: «El iPhone 15 Pro Aún no se ha anunciado oficialmente”. En realidad, el smartphone de Apple se lanzó en septiembre del año pasado. En comparación, Copilot obtuvo mejores resultados en cuestiones técnicas.
Google Gemini en tareas de asistencia
Otra habilidad de la que se jactan la mayoría de los chatbots de IA son sus funciones de asistencia. Pueden generar una idea, crear un itinerario para un viaje, comparar sus opciones e incluso conversar con usted. Comenzamos pidiéndole que hiciera un itinerario para un viaje de 5 días a Goa con un presupuesto limitado e incluyera cosas que la gente pudiera hacer. Dado que el autor estuvo recientemente en Goa, nos resultó más fácil probar esto. Si bien Gemini hizo un trabajo decente al resaltar todos los destinos populares, la respuesta no fue detallada y no fue muy diferente de la de cualquier sitio web de viajes. Lo positivo de esto es que es probable que el chatbot no sugiera nada incorrecto.
Por otro lado, me impresionó la respuesta exhaustiva de Copilot que incluía joyas ocultas e incluso los nombres de las cocinas que uno debería probar. Repetimos la prueba con diferentes variaciones, pero el resultado se mantuvo constante.
Luego preguntamos: “Vivo en la India. ¿Debo comprar una suscripción a Amazon Prime Videos o Netflix? La respuesta fue exhaustiva e incluyó varios parámetros, incluida la profundidad del contenido, los precios, las características y los beneficios. Si bien no sugirió directamente ninguna de ellas, sí enumeró por qué un usuario debería elegir cualquiera de las opciones. La respuesta del copiloto fue la misma.
Finalmente, dedicamos un tiempo a charlar con Géminis. Esta prueba duró algunas horas y probamos la capacidad del chatbot para ser atractivo, entretenido, informativo y contextual. En todos estos parámetros, Gemini se desempeñó bastante bien. Puede contarte un chiste, compartir hechos menos conocidos, darte un consejo e incluso jugar contigo juegos de palabras e imágenes. También probamos su memoria, pero podía recordar la conversión incluso después de enviar mensajes de texto durante una hora. Lo único que no puede hacer es dar una respuesta de una sola línea a los mensajes como lo haría un amigo humano.
Capacidad de generación de imágenes de Google Gemini
En nuestras pruebas, encontramos un montón de cosas interesantes sobre las capacidades de generación de imágenes de Gemini AI. Por ejemplo, todas las imágenes generadas tienen una resolución de 1536×1536, que no se puede cambiar. El chatbot también se niega a cumplir con cualquier solicitud que requiera generar imágenes de personas de la vida real, lo que probablemente minimizará los riesgos de deepfakes (creación de imágenes generadas por IA de personas y objetos que parecen reales).
Pero en cuanto a la calidad, Gemini hizo un trabajo fiel al apegarse al mensaje y generar imágenes. Puede generar fotografías aleatorias en un estilo particular, como posmoderno, realista e iconográfico. El chatbot también puede generar imágenes al estilo de artistas populares de la historia. Sin embargo, existen muchas restricciones y es probable que Géminis rechace su solicitud si solicita algo demasiado específico. Pero al compararlo con Copilot, descubrí que las imágenes se generaban más rápido, se mantenían fieles a las indicaciones y parecían tener una gama más amplia de estilos que podíamos aprovechar. Sin embargo, no se puede comparar con modelos de IA dedicados a la generación de imágenes, como DALL-E y Midjourney.
Google Géminis: Conclusión
En general, encontramos que Gemini AI es bastante competente en la mayoría de las categorías. Como alguien que ha utilizado con poca frecuencia el chatbot de IA desde que estuvo disponible, puedo decir con seguridad que el modelo Gemini Pro ha mejorado la comprensión de la comunicación en lenguaje natural y la obtención de una comprensión contextual de las consultas. La versión gratuita del chatbot es un compañero confiable si uno lo necesita para generar ideas, escribir una nota informal, planificar un viaje o incluso generar imágenes básicas. Sin embargo, no debe utilizarse como herramienta de investigación ni para redacción formal, ya que estas son las dos áreas en las que tiene mayores dificultades.
Comparativamente, Copilot es mejor en la redacción formal y la generación de itinerarios, a la par que mantiene conversaciones (aunque con una memoria más corta) y comparaciones. Gemini se lleva la corona en la generación de imágenes, la generación de contenido informal y la participación del usuario. Teniendo en cuenta que esta es solo la primera versión de Gemini LLM, a diferencia de la cuarta versión de GPT, tenemos curiosidad por presenciar las diferentes formas en que el gigante tecnológico mejora aún más su asistente de inteligencia artificial.