Cómo un gran cambio en el entrenamiento LLM condujo a una explosión de capacidad
En artículo recienteBenj Edwards de Ars Technica exploró algunas de las limitaciones de los modelos de razonamiento entrenados con aprendizaje de refuerzo. Por ejemplo, un estudio «reveló inconsistencias desconcertantes en cómo fallan los modelos. El soneto Claude 3.7 podría realizar...