De su Adquisición de la IA de Darwin a informes recientes que afirman que Apple podría funcionar con google y otros para admitir una gama más amplia de herramientas de IA generativa (genAI) que la que planea presentarestá bastante claro que la empresa ha elegido centrarse en el lugar donde crea sus propias tecnologías de inteligencia artificial.
Al menos una de estas áreas de enfoque refleja el trabajo que la empresa ha estado realizando desde antes de que la IA se convirtiera en una palabra de moda: inteligencia visual.
Insinuaciones de la vida
Con esto me refiero especialmente a una IA que puede entender lo que ve, contextualizar esa información, tomar decisiones basadas en ella, cambiar o alterar la vista, etc.
Es posible que ya estés utilizando este tipo de IA:
- Cada vez que fotografía un documento, Apple le permite copiar el texto para pegarlo en otro documento.
- Cuando tu iPhone puede decirte dónde están las puertas de un edificio.
- Cuando tocas el botón ‘I’ en Fotos para conectarte a las descripciones de lo que es visible.
- Cuando tu iPhone te dice el significado de una etiqueta de lavandería a la que lo expones.
- Cuando usas Traducir para descifrar el texto de los carteles que te rodean.
- Cuando el sensor LiDAR te proporciona un mapa de la habitación.
Hay muchos otros ejemplos. Incluso puede haber mejores ilustraciones que demuestren la dirección del viaje.
blues electrónico
Los investigadores de Apple publicó recientemente un papel blanco que ha generado consternación y comentarios desde su lanzamiento. Describe una tecnología llamada MM1, que es un modelo multimodal para datos de texto e imágenes.
Eso significa que puede entrenar grandes modelos de lenguaje (LLM) que utilizan texto e imágenes y se lo considera un «avance significativo» para la IA. Los modelos que utilizaron la tecnología tuvieron un desempeño excelente en tareas como subtítulos de imágenes, respuesta visual a preguntas e inferencia en lenguaje natural.
El sistema también mostró fuertes capacidades de aprendizaje del contexto. En otras palabras, puede aprender rápidamente al estar expuesto a texto/palabras e imágenes, lo que también significa que la tecnología eventualmente podría manejar problemas realmente complejos y abiertos. Esto último es el santo grial para la investigación de la IA, ya que lograrlo requiere máquinas capaces de Resolver problemas de una manera altamente contextual..
Todo eso está bien, pero lo importante aquí es el uso de imágenes. Esta no es la primera vez en los últimos meses que Apple aprovecha la inteligencia de visión artificial de esta manera. Hacia finales de 2023, se lanzó su herramienta de animación Keyframer, e incluso a principios de 2023 escuchamos que parte de lo que la compañía pretendía construir era una IA capaz de crear escenas inmersivas realistas para usar en Vision Pro.
Automatizado para la gente
Y este último producto es, por supuesto, el espacio en el que se concentra gran parte de la visión de Apple para la IA visual generativa. puede hacer la mayor diferencia, ya que las implicaciones son profundas. Piense en cómo hace posible que una persona que lleva un Vision Pro entre en un entorno (cualquier entorno) y, mientras explora ese espacio, construya una réplica digital perfecta de ese lugar que también se puede compartir con otros. La cuestión es que esta herramienta no es sólo una tonta representación del lugar; armado con inteligencia visual, la experiencia compartida resultante no solo mirar como el lugar que estabas explorando, con algunos ajustes de parámetros para corregir cualquier error, sería efectivamente una representación digital en pleno funcionamiento de ese espacio.
Esto es útil en todo tipo de situaciones, desde la gestión del tráfico hasta la gestión de edificios e instalaciones, pero la capacidad de construir representaciones de espacios realistas, inteligentes e inteligentes también se extiende a la arquitectura y el diseño. Y, por supuesto, hay implicaciones evidentes para la salud.
Es posible que ninguna de estas ideas funcione de la manera que estoy expresando, aunque estoy 100% seguro de que el lugar de Vision Pro en la construcción de gemelos digitales para múltiples industrias funcionará resulta ser inamovible.
Todo el mundo hiere
Pero la combinación de nuevos sistemas operativos altamente visuales (visionOS) con una IA altamente visual capaz de una profunda comprensión y respuesta contextual no es algo que recién esté alcanzando a la famosa película de Tom Cruise. Informe de minorías.
Es un despliegue tecnológico a punto de ocurrir en tiempo real que es yendo más allá de las visiones de los futurólogos que asesoraron en esa película.
No es de extrañar que ahora toda la industria quiere avanzar en la dirección de Apple – Tiene que doler ver que la empresa llega allí más rápido. Pero a todo el mundo le duele a veces.
Por favor sígueme en Mastodonteo únete a mí en el Bar y parrilla AppleHolic y Discusiones sobre Apple grupos en MeWe.
Copyright © 2024 IDG Communications, Inc.