la versión original de esta historia apareció en Revista Quanta.
Hace dos años, en un proyecto llamado Más allá del punto de referencia del juego de imitacióno BIG-bench, 450 investigadores compilaron una lista de 204 tareas diseñadas para probar las capacidades de grandes modelos de lenguaje, que impulsa chatbots como ChatGPT. En la mayoría de las tareas, el rendimiento mejoró de manera predecible y fluida a medida que los modelos ampliaban su escala: cuanto más grande era el modelo, mejor se volvía. Pero con otras tareas, el salto en la capacidad no fue fácil. El rendimiento se mantuvo cerca de cero por un tiempo, luego el rendimiento saltó. Otros estudios encontraron saltos similares en la capacidad.
Los autores describieron esto como un comportamiento «revolucionario»; otros investigadores lo han comparado con una transición de fase en la física, como cuando el agua líquida se congela y se convierte en hielo. En un papel Publicado en agosto de 2022, los investigadores señalaron que estos comportamientos no solo son sorprendentes sino también impredecibles, y que deberían informar las conversaciones en evolución sobre la IA. seguridad, potencial y riesgo. Llamaron a las habilidades “emergente”, una palabra que describe comportamientos colectivos que solo aparecen una vez que un sistema alcanza un alto nivel de complejidad.
Pero puede que las cosas no sean tan sencillas. un nuevo papel por un trío de investigadores de la Universidad de Stanford postula que la aparición repentina de estas habilidades es solo una consecuencia de la forma en que los investigadores miden el desempeño del LLM. Las habilidades, argumentan, no son impredecibles ni repentinas. «La transición es mucho más predecible de lo que la gente cree», dijo Sanmi Koyeo, científico informático de Stanford y autor principal del artículo. «Las fuertes afirmaciones de emergencia tienen tanto que ver con la forma en que elegimos medir como con lo que están haciendo los modelos».
Recién ahora estamos viendo y estudiando este comportamiento debido a lo grandes que se han vuelto estos modelos. Los grandes modelos de lenguaje se entrenan analizando enormes conjuntos de datos de texto(palabras de fuentes en línea, incluidos libros, búsquedas web y Wikipedia) y encontrar vínculos entre palabras que a menudo aparecen juntas. El tamaño se mide en términos de parámetros, aproximadamente de forma análoga a todas las formas en que se pueden conectar las palabras. Cuantos más parámetros, más conexiones puede encontrar un LLM. GPT-2 tenía 1.500 millones de parámetros, mientras que GPT-3.5, el LLM que impulsa ChatGPT, utiliza 350.000 millones. GPT-4, que debutó en marzo de 2023 y ahora es la base Copiloto de Microsoftsupuestamente utiliza 1,75 billones.
Ese rápido crecimiento ha traído un aumento sorprendente en el rendimiento y la eficacia, y nadie cuestiona que los LLM lo suficientemente grandes pueden completar tareas que los modelos más pequeños no pueden, incluidas aquellas para las que no fueron capacitados. El trío de Stanford que consideró la emergencia como un “espejismo” reconoce que los LLM se vuelven más efectivos a medida que crecen; En realidad, la complejidad añadida La utilización de modelos más grandes debería permitir mejorar en problemas más difíciles y diversos. Pero argumentan que si esta mejora parece suave y predecible o irregular y nítida es el resultado de la elección de la métrica (o incluso de la escasez de ejemplos de prueba) más que del funcionamiento interno del modelo.