La IA se ha vuelto grande, al igual que los modelos de IA. Los modelos universales de 10 mil millones de parámetros están aplastando a los modelos de tareas específicas de 50 millones de parámetros, demostrando un rendimiento superior al resolver muchas tareas desde un solo modelo.
Los modelos de IA también se están volviendo multimodales. Nuevos modelos de visión como el de Microsoft Florencia 2 y OpenAI GPT-4V están ampliando las aplicaciones de estos modelos para incorporar imágenes, vídeo y sonido, aportando el poder de grandes modelos de lenguaje (LLM) a millones de nuevos casos de uso.
Dado que lo más grande ha demostrado ser mejor en el mundo de la ingeniería de modelos, cada aplicación ha experimentado una progresión similar:
- Una tarea, un dominio: Un modelo simple para un caso de uso específico: detectores de objetos para carreteras, modelos de segmentación de profundidad para escenas interiores, modelos de subtítulos de imágenes, chatbots para aplicaciones web, etc.
- Una tarea, cada dominio: Ampliar la aplicación de ese modelo simple a muchos casos de uso: detectores de objetos para todas partes (YOLO, dinosaurioetc.), segmentación en profundidad para todo (red móvil), complementos de chat para múltiples productos).
- Cada tarea, cada dominio: Grandes modelos que pueden hacer de todo, un cambio de paradigma posible gracias a los nuevos LLM (p. ej., Florence, GPT-4V, ChatGPT.
- Cada tarea, un dominio: Optimización de modelos grandes para un dominio, lo que permite aplicaciones en tiempo real y mayor confiabilidad; por ejemplo, GPT-3.5-Turbo para búsqueda interactiva. harvey.ai para investigar y redactar documentos legales, ConducirGPT para la conducción autónoma.
Conducción autónoma en modelos pequeños
La conducción autónoma todavía funciona en modelos pequeños. Y si bien una combinación de muchos modelos de tarea única, sensores especializados y mapeo preciso han generado un prototipo impresionante, la receta actual aún no ofrece la seguridad o la escala necesarias para respaldar a los conductores cotidianos.
Esto es lo que todavía nos frena:
- Generalización de tiro cero. Los modelos existentes a menudo fallan en escenarios nunca antes vistos, a menudo llamados “la larga cola” de la conducción. Si no están suficientemente capacitados, los modelos no tienen la capacidad de razonar desde los primeros principios sobre qué hacer a continuación. La solución hasta la fecha ha sido construir otro modelo especial. Los escenarios dinámicos que son difíciles de mapear son una debilidad clave de la mayoría de los productos autónomos.
- Interpretación de la intención del conductor y del actor. Los modelos existentes no logran comprender las sutilezas de la interacción y la intención humana, tanto con respecto al conductor dentro del vehículo como a los actores de la carretera fuera del vehículo.
- Mapeando el mundo entero, con precisión. Si bien las áreas bien mapeadas son en su mayoría transitables, el mapeo HD preciso ha resultado difícil de escalar. Y sin mapas precisos, la conducción basada en mapas no funciona bien.
- Escalar vehículos. Las pequeñas flotas actuales de robotaxis dependen de sensores especializados, computación costosa y combinaciones de muchos modelos para propósitos especiales, una receta compleja y costosa que aún no se ha adaptado a los conductores cotidianos.
Los LLM y el problema de la cola larga
En todas las aplicaciones, los ingenieros de modelos utilizan los LLM como herramientas de desarrollo superpoderosas para mejorar casi todos los aspectos del proceso de ingeniería de modelos. Los LLM han demostrado ser extremadamente útiles para desarrollar y mejorar entornos de simulación, para clasificar, comprender y etiquetar conjuntos de datos masivos, y para interpretar y depurar las «cajas negras» que son las redes neuronales.
Quizás una de las mayores ventajas de los LLM en el proceso de desarrollo es la capacidad de expresar lógica compleja de varios pasos en lenguaje natural, acelerando el desarrollo al evitar la necesidad de código experto. Esto ya ha demostrado ser bastante útil en áreas problemáticas complejas, como el resumen de texto o la finalización de código con dependencias complejas en toda la base del código.
Todas estas herramientas de ingeniería pueden mejorar los esfuerzos de desarrollo en términos generales, incluida la autonomía, pero la aplicación más interesante e impactante de los LLM está directamente en la tarea de conducción en sí: razonar sobre escenarios complejos y planificar el camino más seguro a seguir.
La conducción autónoma es un problema especialmente desafiante porque ciertos casos extremos requieren un razonamiento complejo, similar al humano, que va mucho más allá de los algoritmos y modelos heredados. Los LLM se han mostrado prometedores al ir más allá de las puras correlaciones para demostrar una verdadera «comprensión del mundo». Este nuevo nivel de comprensión se extiende a la tarea de conducir, permitiendo a los planificadores navegar en escenarios complejos con maniobras seguras y naturales sin requerir capacitación explícita.
Mientras que los modelos existentes pueden confundirse por la presencia de trabajadores de la construcción en una intersección o por la ruta alrededor de la escena de un accidente, los LLM han demostrado la capacidad de razonar sobre la ruta y la velocidad correctas con notable competencia. Los LLM ofrecen un nuevo camino para resolver “la cola larga”, es decir, la capacidad de manejar situaciones nunca antes vistas. La larga cola ha sido el desafío fundamental de la conducción autónoma durante las últimas dos décadas.
Limitaciones de los LLM para tareas autónomas
Los grandes modelos de lenguajes actuales todavía tienen limitaciones reales para aplicaciones autónomas. En pocas palabras, los LLM deberán ser mucho más confiables y rápidos. Pero existen soluciones y aquí es donde se está trabajando duro.
Restricciones de latencia y tiempo real
Las decisiones de conducción críticas para la seguridad deben tomarse en menos de un segundo. Los últimos LLM que se ejecutan en centros de datos pueden tardar 10 segundos o más.
Una solución a este problema son las arquitecturas de nube híbrida que complementan la computación en el automóvil con el procesamiento del centro de datos. Otro son los LLM especialmente diseñados que comprimen modelos grandes en factores de forma lo suficientemente pequeños y rápidos como para caber en el automóvil. Ya estamos viendo mejoras espectaculares en la optimización de modelos grandes. Mistral 7B y Llama 2 7B han demostrado un rendimiento que rivaliza con GPT-3.5 con un orden de magnitud menos de parámetros (7 mil millones frente a 175 mil millones). La Ley de Moore y las continuas optimizaciones deberían llevar rápidamente más de estos modelos al límite.
Alucinaciones
Los modelos de lenguaje grandes razonan basándose en correlaciones, pero no todas las correlaciones son válidas en escenarios particulares. Por ejemplo, una persona parada en la intersección podría significar detenerse (peatón), avanzar (guardia de cruce) o reducir la velocidad (obrero de la construcción). Las correlaciones positivas no siempre dan la respuesta correcta. Cuando el modelo produce un resultado que no refleja la realidad, nos referimos a ese resultado como una «alucinación».
El aprendizaje por refuerzo con retroalimentación humana (RLHF) ofrece una solución potencial a este tipo de problemas al alinear el modelo con la retroalimentación humana para comprender este tipo de escenarios de conducción complejos. Con una mejor calidad de datos, Los modelos más pequeños como Llama 2 70B tienen un rendimiento a la par del GPT-4. con 20 veces menos parámetros (70 mil millones frente a 1,7 billones).
Los proyectos de investigación también están haciendo que sea más fácil escalar una mejor calidad de los datos. Por ejemplo, el Marco de OpenChat aprovecha nuevas técnicas como el ajuste fino del aprendizaje por refuerzo (RLFT) que mejoran el rendimiento y evitan el costoso etiquetado de preferencias humanas.
La nueva cola larga
Los modelos de lenguaje tienen “todo” codificado en ellos, pero es posible que aún no cubran todos los conceptos específicos de conducción, como la capacidad de navegar en una intersección concurrida en construcción. Una posible solución en este caso es exponer el modelo a largas secuencias de datos de conducción patentados que puedan incorporar estos conceptos más detallados en el modelo. Como ejemplo, Replit ha utilizado datos de codificación patentados de su base de usuarios. para mejorar continuamente sus herramientas de generación de código con ajustes, superando a modelos más grandes como Code Llama 7B.
Un nuevo futuro para la conducción autónoma
La conducción autónoma aún no se ha generalizado y hoy en día sólo un puñado de vehículos abordan los entornos urbanos más complejos. Los modelos grandes están transformando la forma en que desarrollamos modelos de conducción autónoma y, en última instancia, transformarán la conducción autónoma, proporcionando la seguridad y la escala necesarias para finalmente ofrecer la tecnología a los conductores cotidianos.
Prannay Khosla dirige la ingeniería de modelos en Autonomía fantasmaun proveedor de software de conducción autónoma.
—
Generative AI Insights proporciona un lugar para que los líderes tecnológicos, incluidos proveedores y otros contribuyentes externos, exploren y discutan los desafíos y oportunidades de la inteligencia artificial generativa. La selección es amplia, desde análisis profundos de tecnología hasta estudios de casos y opiniones de expertos, pero también subjetiva, basada en nuestro juicio sobre qué temas y tratamientos servirán mejor a la audiencia técnicamente sofisticada de InfoWorld. InfoWorld no acepta garantías de marketing para su publicación y se reserva el derecho de editar todo el contenido aportado. Contacto doug_dineley@foundryco.com.
Copyright © 2024 IDG Communications, Inc.