en un mar de dispositivos habilitados para IA en CES, el conejo r1 (todo en minúsculas, insisten) destaca no sólo por su trabajo de pintura de alta visibilidad y su factor de forma único, sino también por su dedicación a la broca. La compañía espera que usted lleve consigo un segundo dispositivo para ahorrarse la molestia de abrir su teléfono, y ha hecho todo lo posible para que funcione.
La idea detrás del r1 de $200 es simple: te permite mantener tu teléfono en tu bolsillo cuando necesitas realizar alguna tarea simple como pedir un auto para ir a tu ubicación, buscar algunos lugares para comer donde te encuentras con amigos o encontrar Algunas opciones de alojamiento para un fin de semana en la costa.
«No estamos tratando de apagar su teléfono», dijo el CEO y fundador Jesse Lyu en una llamada con la prensa antes de la feria tecnológica de Las Vegas. “El teléfono es un dispositivo de entretenimiento, pero si estás intentando hacer algo, no es la máquina de mayor eficiencia. Para organizar una cena con un colega, necesitábamos entre 4 y 5 aplicaciones diferentes para trabajar juntas. Los modelos de lenguaje grandes son una solución universal para el lenguaje natural; queremos una solución universal para estos servicios; deberían poder entenderlo”.
En lugar de sacar su teléfono, desbloquearlo, encontrar la aplicación, abrirla y recorrer la interfaz de usuario (¡qué laborioso!), saca el r1 y le da un comando en lenguaje natural:
“Llama a un Uber XL para que nos lleve al Museo de Arte Moderno”.
«Dame una lista de 5 restaurantes baratos a 10 minutos a pie de allí».
«Enumere las cabañas para 6 adultos mejor valoradas en Airbnb dentro de 10 millas de Seaside, nada más que $ 300 por noche».
El r1 hace lo que usted pide y unos segundos después proporciona la confirmación y cualquier contenido que haya solicitado.
Suena familiar, ¿no? Después de todo, eso es lo que supuestamente han estado haciendo nuestros llamados “asistentes de IA” durante los últimos cinco o seis años. «Siri, haz esto», «Hola Google, haz aquello». ¡Tienes razón! Pero hay una gran diferencia.
Siri, Google Assistant, Alexa y todo lo demás se describirían mejor como “interfaces de voz para miniaplicaciones personalizadas”, que no se parecen en nada a los modelos de lenguaje con los que muchos de nosotros hemos comenzado a chatear durante el último año. Cuando le dices a Google que te lleve un Lyft a tu ubicación actual, utiliza la API oficial de Lyft para enviar la información relevante y obtiene una respuesta; básicamente son solo dos máquinas hablando entre sí.
No es que haya nada malo en eso, pero lo que puedes hacer a través de API suele ser muy limitado. Y por supuesto tiene que haber una relación oficial entre el asistente y la aplicación, una conexión aprobada y de pago. Si una aplicación que te gusta no funciona con Siri, o si la API a la que Alexa tiene acceso está desactualizada, no tienes suerte. ¿Y qué pasa con alguna aplicación de nicho demasiado pequeña para conseguir un acuerdo oficial con Google?
Lo que Rabbit ha diseñado se parece más a las IA de tipo “agente” que hemos visto aparecer durante el último año, modelos de aprendizaje automático que se entrenan en interfaces de usuario comunes, como sitios web y aplicaciones. Como resultado, pueden pedir una pizza no a través de alguna API dedicada de Domino, sino de la misma manera que lo haría un humano: haciendo clic en botones y campos comunes en una aplicación web o móvil común y corriente.
La compañía entrenó su propio “modelo de acción grande” o LAM en innumerables capturas de pantalla y videos de aplicaciones comunes y, como resultado, cuando le dices que reproduzca un álbum antiguo de Bob Dylan en Spotify, no se pierde a mitad del camino. Sabe ir a la página del artista de Dylan, organizar los álbumes por fecha de lanzamiento, desplazarse hacia abajo y poner en cola uno de los más antiguos. O como lo hagas.
Puedes ver el proceso en vídeo. en el vídeo del conejo aquí.
Ya sabe cómo trabajar con un montón de aplicaciones y servicios comunes, pero si tienes uno que no sabe, Rabbit afirma que el r1 puede aprender simplemente observándote usar la aplicación por un momento, aunque este modo de enseñanza no lo hará. No estará disponible en el lanzamiento. (Lyu dijo que lo hicieron funcionar en Diablo 4, por lo que probablemente pueda manejar AllTrails).
Pero, por supuesto, el r1 no puede presionar esos botones en la aplicación por sí solo; por un lado, no tiene dedos para presionarlos y, por otro, no tiene una cuenta. Para el segundo problema, Rabbit creó lo que llama “madriguera de conejo”, una plataforma donde activas servicios con tus credenciales de inicio de sesión, que no se guardan. Una vez que están activos, el servidor opera la aplicación presionando botones normales como lo haría usted, pero en un entorno emulado de algún tipo (no fueron muy específicos al respecto).
«Piense en ello como pasarle el teléfono a su asistente», dijo Lyu, asumiendo generosamente que todos estamos familiarizados con esa comodidad en particular. “Todo lo que hacemos es que esta cosa presione botones para usted. Y todo lo que ven en su backend es que estás intentando hacer cosas. Es perfectamente legal y está dentro de sus términos de servicio”.
Más pequeño, más barato, más rápido
La compañía claramente trabajó mucho en el aspecto técnico, pero la verdadera pregunta es si alguien realmente querrá llevar esto además de un teléfono. Tiene un precio de $200, sin suscripción, aunque necesitarás proporcionar una tarjeta SIM. Es más barato que los AirPods y hace muchas promesas divertidas.
Una cosa que claramente tiene a su favor es la apariencia. Como si Playdate tuviera un primo fundador de una startup que condujera un Tesla rojo brillante con matrículas personalizadas (ya conoces el tipo). Fue diseñado por Teenage Engineering, quienes hacen que todo valga la pena hoy en día.
Quizás te preguntes, ¿por qué hay una pantalla en algo con lo que se supone que debes hablar? Bueno, la pantalla es necesaria para mostrarte elementos visuales como los resultados de sus búsquedas o confirmar tu ubicación. Tengo dos opiniones aquí. Uno piensa, bueno, ¿de qué otra manera lo vas a hacer? El otro piensa, si necesitas confirmar todo esto en primer lugar, ¿por qué no usar el teléfono que llevas en el otro bolsillo?
Claramente, el equipo de Rabbit piensa que abrir este dispositivo pequeño (3″x3″x0,5″) y liviano (115 gramos) y decir lo que quieras, luego usar la rueda de desplazamiento y el botón para navegar por los resultados es una experiencia más simple que usando la aplicación en muchos casos. Y puedo ver que eso podría ser cierto: muchas aplicaciones están mal diseñadas y ahora también tienen el peligro adicional de los anuncios.
¿Pero por qué la cámara? Esa es una característica sobre la que no pude obtener una respuesta clara. Tiene un interesante eje magnético/flotante libre, por lo que gira para estar nivelado y apuntar en la dirección que desees. Parece que hay algunas características que aún no están listas para funcionar, pero piense «¿cuántas calorías hay en esta bolsa de dulces?» o «¿quién diseñó este edificio?» y ese tipo de cosa. Es posible que se realicen videollamadas y redes sociales.
El dispositivo ya está disponible para pedidos por adelantado y Lyu dijo que pretenden enviarlo a los EE. UU. a finales de marzo.
competencia aterradora
Sin embargo, la gran pregunta al final del día no es si el conejo r1 tiene éxito en lo que se propone hacer (por lo que puedo decir, lo logra), sino si ese enfoque es viable frente a amenazas extremadamente poderosas. competencia.
Google, Apple, Microsoft, OpenAI, Anthropic, Amazon, Meta: cada uno de ellos y muchos más están trabajando arduamente para crear agentes de aprendizaje automático más potentes todos los días. El mayor peligro para el conejo no es que nadie lo compre, sino que en seis meses, una empresa valorada en cien mil millones de dólares fabrica su propio agente de acción que hace el 80% de lo que hace el conejo y lo pone a disposición de forma gratuita en tu dispositivo. teléfono inteligente.
Le pregunté a Lyu si esto era una preocupación para él y su empresa, que con 17 empleados no tiene la misma escala.
“Por supuesto que estamos preocupados”, respondió, “somos una startup. pero sólo porque puedan hacerlo no significa que debamos detenernos”.
Señaló que a pesar de sus vastos recursos, estas empresas también carecen de la agilidad de una startup, que envía hoy lo que podría enviar en parte más adelante, y también los datos. Los modelos de lenguaje, señaló, «se basan en una receta abierta: cinco artículos, eso es todo». Hay pocas posibilidades de crear un foso allí. Pero el LAM de Rabbit se basa en datos patentados y está dirigido a una experiencia de usuario muy específica en un dispositivo muy específico.
Aun así, aunque el conejo r1 sea mejor o más lindo, la gente prefiere la sencillez y la comodidad. ¿Por qué pagarían dinero por llevar un segundo dispositivo cuando el primero realiza la mayoría de esas tareas? A corto plazo, la respuesta es sí: Lyu dijo que los pedidos anticipados se están acumulando. ¿Vivirá el conejo para producir la próxima generación, presumiblemente el r2? Incluso si no lo hacen, este pequeño y atractivo dispositivo puede perdurar en nuestra memoria como un ejemplo adecuadamente ambicioso del hype zeitgest de la IA.