En enero de 2025, una startup china llamada DeepSeek publicó en arXiv un artículo describiendo R1, un modelo de razonamiento que igualaba a o1 de OpenAI en los principales benchmarks. El coste estimado de entrenamiento: unos 6 millones de dólares, frente a los cientos de millones que OpenAI invirtió en o1. El modelo estaba disponible en código abierto para cualquiera.

Lo que siguió fue uno de los días más agitados de la historia reciente de la tecnología: las acciones de NVIDIA cayeron un 17% en una sola sesión, las de los proveedores de infraestructura cloud se desplomaron, y el sector entero se vio obligado a reconsiderar sus supuestos sobre qué se necesita para construir IA de primer nivel.

Qué hizo DeepSeek diferente

El equipo de DeepSeek no tenía acceso a los chips más avanzados de NVIDIA (las restricciones de exportación de EE.UU. a China los excluyen de las H100 y H200 de última generación). Eso los obligó a ser creativos en la arquitectura.

Las innovaciones técnicas clave de R1:

Mixture of Experts (MoE) eficiente. En lugar de activar todos los parámetros del modelo para cada consulta, R1 activa solo los "expertos" relevantes para cada tipo de pregunta. Eso reduce drásticamente el coste de inferencia.

Reinforcement Learning puro para el razonamiento. En lugar de depender principalmente de datos de entrenamiento etiquetados por humanos, R1 aprendió a razonar a través de refuerzo — básicamente, resolviendo problemas y siendo recompensado por las respuestas correctas. El resultado es un "chain of thought" nativo que el modelo despliega antes de responder.

Destilación de conocimiento. Las versiones más pequeñas de DeepSeek (R1-Distill de 7B y 14B parámetros) rendían notablemente bien porque fueron entrenadas imitando las respuestas del modelo grande — una técnica más eficiente que entrenar desde cero.

Comparativa de costes de entrenamiento de modelos de IA

El impacto en el mercado y el sector

Las consecuencias de DeepSeek R1 se han extendido a lo largo de 2025 y 2026:

Presión de precios en APIs. OpenAI, Anthropic y Google bajaron significativamente los precios de sus APIs a raíz de la competencia. En 2026, procesar un millón de tokens con modelos de primer nivel cuesta entre 5 y 10 veces menos que a principios de 2024.

IA local como opción real. Con DeepSeek R1 Distill de 14B ejecutándose a velocidades razonables en un Mac M4 Pro o en un PC con RTX 4090, la IA local sin nube y sin cuotas mensuales pasó de ser un proyecto de entusiasta a una alternativa práctica para profesionales.

Cuestionamiento del "más grande es mejor". La industria llevaba años asumiendo que el camino hacia mejor IA era más parámetros, más datos y más chips. DeepSeek demostró que la eficiencia algorítmica puede compensar el tamaño bruto — un cambio de paradigma con consecuencias para los planes de inversión en infraestructura.

El ecosistema open source en 2026

DeepSeek no está solo. El ecosistema de modelos abiertos ha madurado notablemente:

Llama 4 (Meta) mantiene la apuesta más importante del sector por el código abierto. Meta publica modelos que cualquiera puede descargar, modificar y desplegar, una estrategia que debilita a sus competidores que cobran por el acceso.

Mistral (empresa francesa) sigue publicando modelos eficientes que compiten en el segmento de modelos pequeños-medianos.

Qwen 2.5 (Alibaba) ha tenido una acogida importante en el ecosistema de desarrolladores asiático y está ganando tracción globalmente.

Hugging Face, el repositorio central del ecosistema open source de IA, supera en 2026 los 500.000 modelos disponibles públicamente.

Repositorio de modelos DeepSeek en Hugging Face

Las implicaciones para usuarios y empresas

Para desarrolladores: acceso a modelos de razonamiento de primer nivel a coste mínimo o nulo. Pueden construir productos sobre modelos abiertos sin pagar royalties ni depender de un proveedor único.

Para empresas con datos sensibles: ejecutar modelos localmente elimina la preocupación de enviar datos confidenciales a la nube. Un modelo DeepSeek o Llama 4 bien configurado en infraestructura propia puede manejar documentos internos sin que nada salga del perímetro corporativo.

Para la geopolítica tecnológica: DeepSeek puso en evidencia que las restricciones de exportación de chips de EE.UU. a China no impidieron que China desarrollara IA de primer nivel. El debate sobre regulación, soberanía digital y la carrera de la IA es más complejo que nunca.

Hardware para ejecutar modelos de IA abiertos de forma local

Preguntas frecuentes

¿Puedo ejecutar DeepSeek en mi ordenador?

Sí. Las versiones destiladas (7B y 14B parámetros) funcionan en ordenadores con 16-32 GB de RAM y una GPU moderna. La experiencia más sencilla es a través de Ollama, que gestiona la descarga y ejecución con un solo comando.

¿Es seguro usar DeepSeek?

El modelo en sí es código abierto y auditable. El servicio web de DeepSeek (deepseek.com) está sujeto a leyes chinas de datos, lo que genera preocupaciones legítimas de privacidad para uso empresarial en Europa. Para datos sensibles, ejecutarlo localmente es la opción recomendada.

¿DeepSeek es mejor que Claude o GPT-4?

En razonamiento matemático y lógico: comparable a los mejores. En escritura natural, matices culturales y seguimiento de instrucciones complejas: los modelos de Anthropic y OpenAI siguen siendo superiores. No hay un "mejor" absoluto — depende de la tarea.