
En su evento anual para desarrolladores, E/S de Google, Google presentó muchos productos, funciones y actualizaciones nuevos de IA. ¿Cuántos? La IA fue mencionada 120 veces durante la conferencia magistral de dos horas, como admitió descaradamente el director ejecutivo, Sundar Pichai, al final de la misma. Algunas de estas nuevas ofertas brindan soluciones de IA a problemas comunes, mientras que otras, aunque impresionantes, es poco probable que agreguen mucho valor a nuestra vida cotidiana. Al menos no el mío.
También: Nueve anuncios más importantes en Google I/O 2024: Gemini, Search, Project Astra y más
Para ayudarlo a clasificar todos los anuncios e identificar cuáles pueden impactar positivamente su vida diaria, he reunido las características de IA más impresionantes, clasificadas desde las que tienen más probabilidades de optimizar su vida diaria hasta las que tienen menos probabilidades de optimizar su vida diaria.
1. Preguntar fotos
Esta característica se mencionó tan brevemente durante la conferencia magistral que fácilmente podrías haberla pasado por alto. Sin embargo, Ask Photos tiene el potencial de beneficiar a la mayoría de las personas al introducir un chatbot Gemini en Google Photos que puede ayudar a los usuarios a clasificar sus fotos.
También: Esta característica sutil (pero útil) de IA fue mi anuncio favorito de Google I/O 2024
Con la función Preguntar fotos, los usuarios pueden describir qué fotos o contenido de su álbum quieren encontrar. Google Photos lo encontrará en el carrete de su cámara, incluso empaquetando varias fotos cuando sea necesario, como se ve en la demostración a continuación.
En el escenario de E/S, el director ejecutivo de Google, Sundar Pichai, dio dos ejemplos que mostraban la utilidad de la función. En el primer ejemplo, un usuario preguntó: «¿Cuál es mi número de matrícula?» Luego, Gemini sacó el número, usando el contexto para identificar qué automóvil pertenecía al usuario. En el segundo, un usuario que quería ver fotos del progreso de su hija como nadadora a lo largo del tiempo hizo que Gemini empaquetara automáticamente los aspectos más destacados con solo pedírselo.
Con la cantidad de fotografías que tomamos y guardamos a diario, este tipo de asistencia para clasificar, organizar y empaquetar el contenido es extremadamente útil. Google compartió que la función llegará a Google Photos a finales de este verano e incluso adelantó que habrá más capacidades por venir.
2. Función de preguntas y respuestas de Gmail
Esta característica también se discutió brevemente cerca del final de la conferencia, por lo que es fácil pasarla por alto; sin embargo, resuelve un problema del mundo real. Durante la parte de la conferencia magistral de Google Workspace, la compañía anunció tres nuevas funciones que llegarán a Gmail en dispositivos móviles, incluidas las preguntas y respuestas de Gmail.
Como su nombre lo indica, la función de preguntas y respuestas de Gmail permite a los usuarios conversar con Gemini sobre el contexto de sus correos electrónicos dentro de la aplicación móvil de Gmail, lo que les permite hacer preguntas específicas sobre su bandeja de entrada.
También: 5 funciones interesantes de Android que Google acaba de anunciar en I/O 2024
Por ejemplo, durante el ejemplo presentado en la etapa Google I/O, el usuario le pidió a Gemini que comparara las ofertas de reparación de techadores por precio y disponibilidad. Luego, Gemini pudo extraer la información de varias bandejas de entrada y mostrársela al usuario, como se ve en la imagen a continuación.
Debido a mi línea de trabajo (y mis hábitos de compra), mi bandeja de entrada se inunda de correos electrónicos a diario. Tener una herramienta que pueda responder de forma conversacional preguntas sobre mis múltiples bandejas de entrada en mi teléfono móvil es un punto de inflexión, ya que lleva la asistencia proporcionada por los resúmenes de IA por correo electrónico al siguiente nivel. La función se lanzará a laboratorio de google usuarios a finales de julio,
3. Proyecto Astra/Gemini Live
Uno de los momentos más impresionantes de la conferencia fue cuando Google Deepmind reprodujo el video de su Proyecto Astra, que mostraba un asistente de voz de IA que puede ayudar con indicaciones visuales usando la cámara del usuario, como se ve en el video a continuación.
Compartimos el Proyecto Astra: nuestro nuevo proyecto se centró en crear un futuro asistente de IA que pueda ser realmente útil en la vida cotidiana. 🤝
Míralo en acción, con dos partes: cada una fue capturada en una sola toma, en tiempo real. ↓ #GoogleIO pic.twitter.com/x40OOVODdv-Google DeepMind (@GoogleDeepMind) 14 de mayo de 2024
Project Astra es un proyecto de Google DeepMind destinado a remodelar el futuro de los asistentes de inteligencia artificial al brindarles a los asistentes de voz conocimiento del entorno del usuario. El proyecto se está integrando en Gemini Live, una experiencia móvil donde los usuarios pueden tener conversaciones con Gemini que incluyen el contexto de su entorno.
En la experiencia Gemini Live, los usuarios también pueden elegir entre varias voces que suenan naturales e interrumpirlas en mitad de la conversación, lo que hace que estos intercambios sean más naturales e intuitivos.
Aunque los usuarios aún no pueden aprovechar toda la experiencia multimodal de Gemini Live, Google agregará la experiencia completa a finales de este año y esta tecnología tiene el potencial de transformar la experiencia del asistente de voz. Esto me lleva al siguiente punto.
4. Asistente de Google: degradado, no muerto
Durante el evento, Google insinuó astutamente que Gemini pronto podría reemplazar al Asistente de Google como el asistente de IA predeterminado en todo teléfonos Android. A pesar de la sutil mención de Google, esto es un gran problema porque afectará a los clientes de Android más allá de la base de usuarios de Pixel y la forma en que interactúan con sus asistentes de voz.
El cambio también es significativo porque debería mejorar la calidad de la asistencia, ya que Gemini es capaz de realizar un procesamiento avanzado del lenguaje. Los planes para Gemini parecen prometedores, y Google comparte que la IA eventualmente se superpondrá en varios servicios y aplicaciones, brindando soporte multimodal y en pantalla cuando se solicite.
5. Actualización de Gemini Advanced a Gemini 1.5 Pro
Google lanzó por primera vez el nivel de suscripción premium de Gemini, Gemini Advanced, en febrero, brindando a los usuarios acceso a los últimos modelos de inteligencia artificial de Google y a conversaciones más largas. En Google I/O, la compañía amplió aún más las ofertas, siendo una de las mayores actualizaciones el acceso a Gemini 1.5 Pro.
Gemini 1.5 Pro ofrece al público una ventana contextual de 1 millón de tokens. Para poner ese número en perspectiva, los usuarios ahora pueden cargar documentos de hasta 1500 páginas, 100 correos electrónicos o 96 menús de Cheesecake Factory, como mencionó Pichai en el escenario. Google afirma que es la ventana contextual más grande de cualquier chatbot para consumidores ampliamente disponible.
También: ¿Qué significa tener una ventana de contexto larga para un modelo de IA?
Aunque no creo que un usuario promedio necesite este tipo de ventana, si eres un superusuario que necesita ayuda con grandes cantidades de datos, esta ventana de contexto agregada cambia las reglas del juego. Los usuarios interesados pueden acceder a Gemini Advanced a través del Google uno Plan AI Premium, que cuesta $20 mensuales una vez que expira la prueba.
6. Veo and Imagen 3
En Google I/O, Google lanzó su generador de texto a imagen con IA más avanzado. Imagen 3y generador de texto a vídeo, Veo. Ambos ofrecen mejoras significativas con respecto a sus predecesores, con resultados de mayor calidad y mayor fidelidad a las indicaciones de los usuarios. Los modelos se muestran en vista previa con creadores seleccionados; Para obtener acceso a cualquiera de estos modelos, los usuarios interesados deben registrarse en un lista de espera.
Presentamos Veo: nuestro modelo de vídeo generativo más capaz. 🎥
Puede crear clips de 1080p de alta calidad que pueden durar más de 60 segundos.
Desde fotorrealismo hasta surrealismo y animación, puede abordar una variedad de estilos cinematográficos. 🧵 #GoogleIO pic.twitter.com/6zEuYRAHpH-Google DeepMind (@GoogleDeepMind) 14 de mayo de 2024
Aunque ambos modelos parecen extremadamente prometedores e impulsan la generación de imágenes y videos con IA, la razón por la que están clasificados hacia el final de la lista es que no parecen agregar mucho valor a la vida cotidiana o al flujo de trabajo de las personas, a menos que sea un Profesional creativo que trabaja con generación de videos e imágenes todos los días. Para los no creativos, es una herramienta interesante para tener en su bolsillo cuando surge la oportunidad.
7. Resúmenes de IA en la Búsqueda de Google
La última función es la descripción general de IA en la Búsqueda de Google. Coloqué las descripciones generales de IA al final de la lista porque, aunque algunos podrían encontrar útiles las ideas generadas por IA en la parte superior de los resultados de búsqueda, no había una necesidad real de incluirlas en todos los buscadores basados en inglés de EE. UU., ya que la implementación más amplia parece estar resolviendo un problema que no existía desde el principio.
También: Las cuatro funciones más importantes de la Búsqueda de Google anunciadas en Google I/O 2024
El sistema que ofrecía Google antes de tener que optar por la experiencia generativa de búsqueda (SGE) para acceder a las descripciones generales de IA parecía más útil porque podía acceder fácilmente a ellas si las quería, pero no era necesario si quería su experiencia de búsqueda. permanecer sin cambios.