Un laboratorio chino ha creado lo que parece ser uno de los modelos de IA “abiertos” más potentes hasta la fecha.
el modelo, Búsqueda profunda V3fue desarrollado por la firma de inteligencia artificial DeepSeek y fue lanzado el miércoles bajo una licencia permisiva que permite a los desarrolladores descargarlo y modificarlo para la mayoría de las aplicaciones, incluidas las comerciales.
DeepSeek V3 puede manejar una variedad de cargas de trabajo y tareas basadas en texto, como codificar, traducir y escribir ensayos y correos electrónicos desde un mensaje descriptivo.
Según las pruebas comparativas internas de DeepSeek, DeepSeek V3 supera tanto a los modelos descargables disponibles «abiertamente» como a los modelos de IA «cerrados» a los que solo se puede acceder a través de una API. En un subconjunto de concursos de codificación organizados en Codeforces, una plataforma para concursos de programación, DeepSeek supera a otros modelos, incluido Meta. Llama 3.1 405BOpenAI GPT-4oy el Qwen 2.5 72B de Alibaba.
DeepSeek V3 también aplasta a la competencia en Aider Polyglot, una prueba diseñada para medir, entre otras cosas, si un modelo puede escribir con éxito código nuevo que se integre al código existente.
DeepSeek-V3!
60 tokens/segundo (¡3 veces más rápido que V2!)
Compatibilidad API intacta
Modelos y artículos de código abierto
Parámetros del MoE 671B
37B parámetros activados
Entrenado con tokens de alta calidad de 14,8TSupera a Llama 3.1 405b en casi todos los puntos de referencia https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf
— Gordito ♨️ (@kimmonismus) 26 de diciembre de 2024
DeepSeek afirma que DeepSeek V3 fue entrenado en un conjunto de datos de 14,8 billones de tokens. En la ciencia de datos, los tokens se utilizan para representar bits de datos sin procesar: 1 millón de tokens equivalen a unas 750.000 palabras.
No es sólo el conjunto de entrenamiento lo que es enorme. DeepSeek V3 tiene un tamaño enorme: 685 mil millones de parámetros. (Los parámetros son las variables internas que utilizan los modelos para hacer predicciones o decisiones). Eso es alrededor de 1,6 veces el tamaño de Llama 3.1 405B, que tiene 405 mil millones de parámetros.
El recuento de parámetros a menudo (pero no siempre) se correlaciona con la habilidad; Los modelos con más parámetros tienden a superar a los modelos con menos parámetros. Pero los modelos grandes también requieren hardware más robusto para funcionar. Una versión no optimizada de DeepSeek V3 necesitaría un banco de GPU de alta gama para responder preguntas a velocidades razonables.
Si bien no es el modelo más práctico, DeepSeek V3 es un logro en algunos aspectos. DeepSeek pudo entrenar el modelo utilizando un centro de datos de GPU Nvidia H800 en solo dos meses, GPU que las empresas chinas recientemente restringido por el Departamento de Comercio de EE.UU. de las adquisiciones. La compañía también afirma que sólo gastó 5,5 millones de dólares para entrenar DeepSeek V3, una fracción del costo de desarrollo de modelos como el GPT-4 de OpenAI.
La desventaja es que las opiniones políticas del modelo están un poco filtradas. Pregúntele a DeepSeek V3 sobre la Plaza de Tiananmen, por ejemplo, y no responderá.
DeepSeek, al ser una empresa china, está sujeta a evaluación comparativa por el regulador de Internet de China para garantizar que las respuestas de sus modelos “incorporen valores socialistas fundamentales”. Muchos Sistemas de IA chinos rechazar para responder a temas que podrían provocar la ira de los reguladores, como la especulación sobre la Xi Jinping régimen.
DeepSeek, que recientemente presentó DeepSeek-R1, una respuesta a Modelo de “razonamiento” o1 de OpenAIes una organización curiosa. Está respaldado por High-Flyer Capital Management, un fondo de cobertura cuantitativo chino que utiliza inteligencia artificial para informar sus decisiones comerciales.
Los modelos de DeepSeek han obligado a competidores como ByteDance, Baidu y Alibaba a reducir los precios de uso de algunos de sus modelos y a hacer que otros sean completamente gratuitos.
High-Flyer construye sus propios clústeres de servidores para el entrenamiento de modelos, uno de los más recientes según se informa tiene 10.000 GPU Nvidia A100 y cuesta mil millones de yenes (~$138 millones). Fundada por Liang Wenfeng, un licenciado en informática, High-Flyer tiene como objetivo lograr una IA «superinteligente» a través de su organización DeepSeek.
en un entrevista A principios de este año, Liang describió el código abierto como un “acto cultural” y caracterizó la IA de código cerrado como OpenAI como un foso “temporal”. «Incluso el enfoque de código cerrado de OpenAI no ha impedido que otros se pongan al día», señaló.
En efecto.