El progreso en IA requiere pensar más allá de los LLM

Necesitamos tener una conversación franca sobre los modelos de lenguajes grandes (LLM). En esencia, los LLM no son más que sofisticadas máquinas de memorización, capaces de hacer afirmaciones que parezcan razonables, pero incapaces de comprender la verdad fundamental. Es importante destacar que, a pesar de las fervientes esperanzas de muchos, están lejos de ofrecer o incluso prefigurar la inteligencia artificial general (AGI). La exageración en torno a los LLM ha alcanzado niveles estratosféricos, fomentando una creencia equivocada en su potencial como precursores de AGI.

Nos encontramos en una coyuntura crítica en la que el vínculo erróneo entre LLM y AGI amenaza con frenar, no acelerar, el progreso genuino en inteligencia artificial. El clamor por que los LLM evolucionen hacia soluciones AGI personifica la visión de túnel en su máxima expresión. Consideremos las enormes inversiones invertidas en la formación de modelos cada vez más grandes, que sólo produjeron mejoras marginales en tareas que no están basadas en texto. Seamos realistas: los LLM no están aprendiendo a hacer matemáticas. Su fuerte radica en abordar las tareas de texto estadístico con delicadeza. Es imperativo que recalibramos las expectativas y reconocemos que, aunque los LLM sobresalen en ciertos dominios, se quedan cortos en otros.

Para trazar un rumbo hacia avances significativos en IA, debemos cortar el cordón umbilical entre los LLM y los AGI. Contrariamente a la creencia popular, los LLM no son la puerta de entrada a AGI; en todo caso, representan un desvío (o una rampa de salida de la autopista, como Yann LeCun, científico jefe de IA de Meta, dijo recientemente).

Pensando más allá de los LLM

Uno de los obstáculos para disipar ideas erróneas sobre los LLM surge de su adopción ubicua entre los desarrolladores. Integrados perfectamente en las herramientas de desarrollo, los LLM sirven como valiosos compañeros de autocompletarayudando sin esfuerzo a los desarrolladores en sus esfuerzos de codificación.

Incluso para los codificadores, los LLM tienen fortalezas y debilidades. Deberíamos seguir aprovechando lo primero y evitar lo segundo. El viernes pasado el La Cámara de Representantes de EE.UU. prohibió a los empleados uso del asistente de codificación del software Copilot basado en IA de Microsoft debido a preocupaciones podría provocar fugas de datos. Microsoft dijo a los periodistas que está trabajando en otra versión para satisfacer mejor las necesidades de seguridad del gobierno.

Por supuesto, la IA orientada al desarrollador no es simplemente una cuestión de LLM. A pesar de todo el enfoque en los LLM, también existen enfoques complementarios de IA que ayudan a los desarrolladores. Pero estas soluciones enfrentan obstáculos en el mercado por parte de los LLM. Por ejemplo, los críticos de la tecnología de aprendizaje por refuerzo afirman que no es una verdadera IA generativa, citando su independencia de los LLM. Sin embargo, abundan los ejemplos en el panorama de la IA, desde DALL-E hasta Midjourney, donde la IA generativa prospera sin depender de los LLM. azul oscuro, como lo he cubierto antes, escribe pruebas unitarias de Java de forma autónoma y 250 veces más rápido que los desarrolladores humanos sin un LLM. (Utiliza aprendizaje por refuerzo). Midjourney, con su modelo de difusión, es otro testimonio más de la diversidad de enfoques dentro del ámbito de la IA.

De hecho, es muy posible que el próximo salto adelante en IA no surja de los LLM, que están inherentemente limitados por su arquitectura que codifica y predice tokens que representan fragmentos de texto o píxeles, y fracasan cuando se enfrentan a tareas de lógica matemática o simbólica. Sin duda, los LLM constituirán una faceta de los futuros esfuerzos de AGI, pero no la monopolizarán. La historia ha demostrado repetidamente que los avances en los algoritmos catalizan cambios de paradigma en la informática. Como explicó una vez Thomas Kuhn, el progreso científico no es lineal; está marcado por innovaciones disruptivas (o cambios de paradigma, una frase que él acuñó).

La estructura de las revoluciones de la IA

Reflexionar sobre los avances recientes subraya este punto. Las redes neuronales para el reconocimiento de imágenes mostraron una mejora constante, pero no eran lo suficientemente precisas como para ser útiles hasta que se desarrollaron arquitecturas de redes neuronales recurrentes (RNN), que mejoraron drásticamente la precisión del reconocimiento de imágenes hasta el punto de que esas redes podían superar a los humanos. La llegada de las arquitecturas transformadoras marcó el comienzo de una mejora dramática similar en las redes neuronales que realizan predicciones de texto, lo que condujo directamente al LLM. Ahora ya estamos en la era de los rendimientos decrecientes: se informa que GPT-4 tiene 100 veces el tamaño de GPT3.5 y, si bien es una mejora notable, ciertamente no es 100 veces mejor.

De hecho, el meteórico ascenso de los LLM puede incluso perjudicar la innovación en el mercado de la IA. argumentó Tim O’Reilly en un reciente artículo de opinión en La información. Advirtió que un puñado de inversores de LLM con mucho dinero amenaza con distorsionar el mercado, alimentando una carrera por el monopolio que inhibe la adecuación del producto al mercado, perjudicando así a los clientes.

Las implicaciones son claras: las inversiones infladas en LLM corren el riesgo de generar rendimientos decrecientes. Los fondos desviados hacia tecnologías de inteligencia artificial más diversas podrían generar dividendos más sustanciales. Mientras navegamos por el laberíntico paisaje de la inteligencia artificial, prestemos atención a las lecciones de la historia: el progreso prospera en la diversidad, no en la monocultura. El futuro de la IA no está grabado en piedra; está esperando ser moldeado por el ingenio de pioneros dispuestos a explorar más allá de los límites de los LLM.

Enlace fuente