Google introdujo “Ayúdame a escribir” en Gmail en junio de 2023, y ahora Gmail Voice Compose busca mejorar esa comodidad impulsada por la inteligencia artificial. Las herramientas de inteligencia artificial se han abierto camino en todo tipo de servicios e industrias, y con razón. Atrás quedaron los días en los que el reconocimiento de voz no funcionaba y los asistentes móviles se comportaban mal. El reconocimiento de voz impulsado por IA hace maravillas, naturalmente; ya que este fue uno de los primeros usos propuestos de los modelos de lenguaje grandes. La próxima característica más nueva de Gmail le permitirá utilizar esto para crear correos electrónicos profesionales con solo hablar por teléfono.
Gmail Voice Compose funciona igual que «Ayúdame a escribir»
El «Ayúdame a escribirLa función ”en las aplicaciones de Gmail en Android e iOS permite a los usuarios redactar correos electrónicos a partir de fragmentos de texto. Los usuarios escriben los puntos principales de lo que trata su correo electrónico y la IA hace el resto. “Ayúdame a escribir” no sólo ahorra tiempo, sino que redacta un correo electrónico completo y profesional a partir de unas pocas líneas de texto informal. Voice Compose parece funcionar de la misma manera, pero escuchando a un usuario hablar en lugar de hacer que escriba.
Como lo descubrió ElSpAndroidel Gmail Androide La versión 2023.12.31.599526178 de la aplicación contiene una nueva función a la que se puede acceder alternando un valor de bandera. Esta función le permite grabarse mientras escribe un correo electrónico tocando un botón de micrófono. Cuando haya terminado de grabar, presionar «Crear» le pedirá a AI que cree su correo electrónico a partir de su grabación. Aunque es muy similar a la función «Ayúdame a escribir», Voice Compose es definitivamente más rápido y conveniente.
¿Cómo funciona la conversión de voz a texto con IA?
La conversión de voz a texto con IA es mucho más precisa para descifrar lo que alguien dice que los modelos de reconocimiento de voz más antiguos. El salto en la capacidad fue casi discordante, pero también muy comprensible una vez que se comprende cómo funcionan los LLM. Los modelos de lenguaje grandes, de manera muy simplificada, se consideran «predictores de palabras». Es decir, lo que hacen es predecir qué palabra debería venir después de la última.
Esta definición no favorece la compleja red neuronal que poseen los LLM, pero ayuda a comprender cómo funciona su reconocimiento de voz. Los modelos de reconocimiento de voz más antiguos solían analizar cada sonido e intentar descubrir qué palabra era. Esto conduciría muy a menudo a sentencias completamente absurdas. Reconocimiento de voz por IA no se limita a escuchar y analizar cada palabra individual. Lo compara con todo lo que se ha dicho antes y adivina qué es más probable que se acabe de decir. Esta es la razón por la que el reconocimiento de voz mediante IA está muy por delante de los modelos más antiguos; tiene algo de inteligencia detrás.
Gmail Voice Compose debería implementarse muy pronto, ya que se supone que ha estado en proceso desde octubre del año pasado. Si funciona tan bien como otros modelos de conversión de voz a texto con IA, será un gran paso adelante en términos de comodidad para quienes utilizan la aplicación Gmail.