Ollama es la forma más sencilla de ejecutar modelos de lenguaje en tu propio ordenador. Con tres comandos tienes Llama 4, DeepSeek R1 o Qwen 2.5 funcionando localmente, sin enviar datos a ningún servidor, sin suscripciones y sin límites de uso.

En 2026, con modelos cada vez más eficientes y hardware doméstico más capaz, la IA local ha pasado de ser un proyecto de entusiasta a una alternativa práctica para muchos casos de uso.

Qué necesitas para empezar

Hardware mínimo recomendado:

  • 16 GB de RAM para modelos de 7B parámetros (velocidad básica)
  • 32 GB de RAM o VRAM para modelos de 13-14B (velocidad cómoda)
  • Mac con chip M2 o posterior: excelente por la memoria unificada CPU+GPU
  • PC con NVIDIA RTX 3070 o superior: la GPU acelera enormemente la inferencia

Con 8 GB de RAM puedes ejecutar modelos muy pequeños (3B) pero la experiencia es lenta. Con 16 GB los modelos de 7B van bien. Con 32 GB o más, los modelos de 14B son muy utilizables.

Instalación de Ollama

En macOS:

[@portabletext/react] Unknown block type "codeBlock", specify a component for it in the `components.types` prop

O descarga el instalador desde ollama.com.

En Windows:

Descarga el instalador .exe desde ollama.com y ejecútalo. Se instala como servicio en segundo plano.

En Linux:

[@portabletext/react] Unknown block type "codeBlock", specify a component for it in the `components.types` prop

Para verificar que funciona:

[@portabletext/react] Unknown block type "codeBlock", specify a component for it in the `components.types` prop

Descargar y ejecutar tu primer modelo

Para descargar y ejecutar Llama 4 Scout (el modelo más eficiente de la familia):

[@portabletext/react] Unknown block type "codeBlock", specify a component for it in the `components.types` prop

Para DeepSeek R1 de 14B (excelente razonamiento, requiere ~10 GB de espacio):

[@portabletext/react] Unknown block type "codeBlock", specify a component for it in the `components.types` prop

Para Qwen 2.5 de 7B (muy eficiente, multilingüe con buen español):

[@portabletext/react] Unknown block type "codeBlock", specify a component for it in the `components.types` prop

El primer run descarga el modelo (puede tardar varios minutos según la conexión). Los siguientes arrancan directamente desde caché.

Descarga de modelo de IA con Ollama en terminal

Gestión de modelos

[@portabletext/react] Unknown block type "codeBlock", specify a component for it in the `components.types` prop

Los modelos se almacenan en ~/.ollama/models en Mac/Linux y en C:\Users\[usuario]\.ollama en Windows.

Open WebUI: la interfaz gráfica

La línea de comandos funciona, pero Open WebUI ofrece una interfaz similar a ChatGPT para usar tus modelos locales desde el navegador. Requiere Docker:

[@portabletext/react] Unknown block type "codeBlock", specify a component for it in the `components.types` prop

Accede a http://localhost:3000 en tu navegador. Crea una cuenta local (los datos se quedan en tu máquina) y ya tienes una interfaz completa con historial de conversaciones, subida de documentos, cambio entre modelos y más.

Interfaz gráfica Open WebUI para usar IA local con Ollama

Qué modelo elegir según tu hardware

Hardware | Modelo recomendado | Velocidad esperada

Mac M2/M3 16 GB | Llama 4 Scout / Qwen 2.5 7B | 15-25 tokens/s

Mac M4 Pro 24 GB | DeepSeek R1 14B / Llama 4 Maverick | 20-35 tokens/s

PC RTX 4070 16 GB VRAM | DeepSeek R1 14B | 30-50 tokens/s

PC RTX 5080 16 GB VRAM | DeepSeek R1 32B | 20-35 tokens/s

Los tokens por segundo determinan la fluidez de las respuestas. Por debajo de 10 tokens/s la experiencia es frustrante. Por encima de 20 es cómoda para uso normal.

Comparativa de velocidad de inferencia de IA local en diferentes hardware

Preguntas frecuentes

¿Los modelos locales son tan buenos como ChatGPT o Claude?

Para muchas tareas cotidianas, los modelos de 14B+ cuantizados son sorprendentemente buenos. Para tareas muy complejas que requieren razonamiento profundo, los mejores modelos en la nube siguen siendo superiores. Para privacidad total y uso sin límites: la IA local gana.

¿Qué es la cuantización Q4_K_M que veo en los modelos?

Es una técnica de compresión que reduce el tamaño del modelo sacrificando algo de precisión. Q4_K_M es el equilibrio más popular: reduce a la mitad el tamaño respecto al original float16 con pérdida de calidad mínima. Es lo que descarga Ollama por defecto.

¿Funciona sin internet después de la descarga?

Sí. Una vez descargado el modelo, no necesitas internet para ejecutarlo. Ideal para uso en zonas sin cobertura o para máxima privacidad.