Deepseek se ha vuelto viral.
El laboratorio de IA chino Deepseek irrumpió en la conciencia convencional esta semana después Su aplicación de chatbot se subió a la parte superior de las listas de Apple App Store (y Google Play también). Deepseek’s AI Models, que fueron entrenados utilizando técnicas de cómputo, eficientes, han dirigido analistas de Wall Street – y tecnólogos – Para cuestionar si Estados Unidos puede mantener su liderazgo en la carrera de IA y si la demanda de chips de IA se mantendrá.
Pero, ¿de dónde vino Deepseek y cómo se elevó a la fama internacional tan rápido?
Deepseek’s Trader Origins
Deepseek está respaldado por High-Flyer Capital Management, un fondo de cobertura cuantitativo chino que utiliza IA para informar sus decisiones comerciales.
Entusiasta de la IA Liang wenfeng Cofundó High-Flyer en 2015. Wenfeng, quien, según los informes, comenzó a incursionar en el comercio, mientras que un estudiante de la Universidad de Zhejiang, lanzó la gestión de capital de alto volar como un fondo de cobertura en 2019 centrado en desarrollar y desplegar algoritmos de IA.
En 2023, High-Flyer comenzó Deepseek como un laboratorio dedicado a investigar herramientas de IA separadas de su negocio financiero. Con High-Flyer como uno de sus inversores, el laboratorio se desvió en su propia compañía, también llamada Deepseek.
Desde el primer día, Deepseek construyó sus propios grupos de centros de datos para el entrenamiento modelo. Pero al igual que otras compañías de IA en China, Deepseek ha sido afectado por las prohibiciones de exportación de EE. UU. En el hardware. Para capacitar a uno de sus modelos más recientes, la compañía se vio obligada a usar Nvidia H800 Chips, una versión menos potente de un chip, el H100, disponible para las empresas estadounidenses.
Evento de TechCrunch
Berkeley, CA
|
5 de junio
Se dice que el equipo técnico de Deepseek sesga a Young. La empresa Según se informa, reclutas agresivamente Investigadores de AI de doctorado de las mejores universidades chinas. Deepseek también contrata personas sin antecedentes de informática Para ayudar a su tecnología a comprender mejor una amplia gama de temas, según el New York Times.
Modelos fuertes de Deepseek
Deepseek dio a conocer su primer conjunto de modelos: Deepseek Coder, Deepseek LLM y Deepseek Chat, en noviembre de 2023. Pero no fue hasta la primavera pasada, cuando la startup lanzó su familia de modelos Deepseek-V2 de próxima generación, que la industria de la IA comenzó a darse cuenta.
Deepseek-V2, un sistema de análisis de texto e imagen de uso general, se desempeñó bien en varios puntos de referencia de IA, y era mucho más barato de ejecutar que los modelos comparables en ese momento. Obligó a la competencia nacional de Deepseek, incluida la bytedance y Alibaba, a reducir los precios de uso de algunos de sus modelos y hacer que otros sean completamente libres.
Deepseek-v3lanzado en diciembre de 2024, solo se sumó a la notoriedad de Deepseek.
Según las pruebas de referencia internas de Deepseek, Deepseek V3 supera a los modelos descargables y abiertos disponibles como Meta’s Llama y modelos «cerrados» a los que solo se puede acceder a través de una API, como la de OpenAi’s GPT-4O.
Igualmente impresionante es el modelo de «razonamiento» R1 de Deepseek. Lanzado en enero, Deepseek afirma R1 funciona así como el modelo O1 de OpenAI en puntos de referencia clave.
Al ser un modelo de razonamiento, R1 se verifica de manera efectiva, lo que ayuda a evitar algunas de las trampas que normalmente tropiezan con los modelos. Los modelos de razonamiento tardan un poco más, generalmente segundos de minutos más, para llegar a soluciones en comparación con un modelo típico de no razonamiento. La ventaja es que tienden a ser más confiables en dominios como física, ciencias y matemáticas.
Sin embargo, hay un inconveniente de R1, Deepseek V3 y otros modelos de Deepseek. Al ser IA desarrollada por los chinos, están sujetos a margen de evaluación por el regulador de Internet de China para garantizar que sus respuestas «encarnen los valores socialistas centrales». En la aplicación de chatbot de Deepseek, por ejemplo, R1 no responderá preguntas sobre Tiananmen Square o la autonomía de Taiwán.
En marzo, Deepseek superó a 16.5 millones de visitas. «[F]O marzo, Deepseek está en el segundo lugar, a pesar de ver la caída del tráfico un 25% desde donde estaba en febrero, basado en visitas diarias ”, dijo David Carr, editor de SimilarWeb, a TechCrunch. Todavía palidece en comparación con ChatGPT, que aumentó más de 500 millones de usuarios activos semanales semanales en marzo.
Un enfoque disruptivo
Si Deepseek tiene un modelo de negocio, no está claro cuál es ese modelo, exactamente. La compañía genera sus productos y servicios muy por debajo del valor de mercado, y deja a otros gratis. Tampoco está tomando dinero de los inversoresa pesar de una tonelada de interés de VC.
La forma en que Deepseek le dice que los avances de eficiencia le han permitido mantener la competitividad de los costos extremos. Algunos expertos disputar Sin embargo, las cifras que la compañía ha proporcionado.
Cualquiera que sea el caso, los desarrolladores han llevado a los modelos de Deepseek, que no son de código abierto, ya que la frase se entiende comúnmente, pero están disponibles bajo licencias permisivas que permiten uso comercial. Según Clem Delangue, el CEO de Hugging Face, una de las plataformas que albergan modelos de Deepseek, Los desarrolladores en la cara de abrazo han creado más de 500 modelos «derivados» de R1 que han acumulado 2.5 millones de descargas combinadas.
El éxito de Deepseek contra rivales más grandes y más establecidos ha sido descrito como «AI alojado» y «Sobregado». El éxito de la compañía fue al menos en parte responsable de causando que el precio de las acciones de Nvidia disminuya en un 18% en enero y para provocar una respuesta pública del CEO de Operai Sam Altman. En marzo, las oficinas del Departamento de Comercio de los Estados Unidos dijeron a los empleados que Deepseek estará prohibido en sus dispositivos gubernamentalessegún Reuters.
Microsoft anunció que Deepseek está disponible en su servicio de fundición Azure AiLa plataforma de Microsoft que reúne los servicios de IA para empresas bajo un solo banner. Cuando se le preguntó sobre el impacto de Deepseek en el gasto de AI de Meta durante su llamada de ganancias del primer trimestre, dijo el CEO Mark Zuckerberg El gasto en infraestructura de IA continuará siendo una «ventaja estratégica» para meta. En marzo, Operai llamó a Deepseek «subsidiado por el estado» y «controlado por el estado», y recomienda que el gobierno de los Estados Unidos considere prohibir modelos de Deepseek.
Durante la llamada de ganancias del cuarto trimestre de Nvidia, El CEO Jensen Huang enfatizó la «excelente innovación» de Deepseek Decir que y otros modelos de «razonamiento» son excelentes para Nvidia porque necesitan mucho más cómputo.
Al mismo tiempo, Algunas compañías están prohibiendo a Deepseeky también están enteros países y gobiernos, incluyendo Corea del Sur. Estado de Nueva York también Profundió que se use unsee profundo en dispositivos gubernamentales.
En mayo, el vicepresidente y presidente de Microsoft, Brad Smith, dijo en una audiencia en el Senado que Los empleados de Microsoft no pueden usar Deepseek debido a la seguridad de los datos y las preocupaciones de propaganda.
En cuanto a lo que podría tener el futuro de Deepseek, no está claro. Los modelos mejorados son un hecho. Pero el gobierno de los Estados Unidos parece ser creciendo cautivado de lo que percibe como influencia extranjera dañina. En marzo, el Wall Street Journal informó que Es probable que Estados Unidos prohíba a Deepseek en dispositivos gubernamentales.
Esta historia se publicó originalmente el 28 de enero de 2025 y se actualizará regularmente.