Ollama es la forma más sencilla de ejecutar modelos de lenguaje en tu propio ordenador. Con tres comandos tienes Llama 4, DeepSeek R1 o Qwen 2.5 funcionando localmente, sin enviar datos a ningún servidor, sin suscripciones y sin límites de uso.
En 2026, con modelos cada vez más eficientes y hardware doméstico más capaz, la IA local ha pasado de ser un proyecto de entusiasta a una alternativa práctica para muchos casos de uso.
Qué necesitas para empezar
Hardware mínimo recomendado:
- ●16 GB de RAM para modelos de 7B parámetros (velocidad básica)
- ●32 GB de RAM o VRAM para modelos de 13-14B (velocidad cómoda)
- ●Mac con chip M2 o posterior: excelente por la memoria unificada CPU+GPU
- ●PC con NVIDIA RTX 3070 o superior: la GPU acelera enormemente la inferencia
Con 8 GB de RAM puedes ejecutar modelos muy pequeños (3B) pero la experiencia es lenta. Con 16 GB los modelos de 7B van bien. Con 32 GB o más, los modelos de 14B son muy utilizables.
Instalación de Ollama
En macOS:
O descarga el instalador desde ollama.com.
En Windows:
Descarga el instalador .exe desde ollama.com y ejecútalo. Se instala como servicio en segundo plano.
En Linux:
Para verificar que funciona:
Descargar y ejecutar tu primer modelo
Para descargar y ejecutar Llama 4 Scout (el modelo más eficiente de la familia):
Para DeepSeek R1 de 14B (excelente razonamiento, requiere ~10 GB de espacio):
Para Qwen 2.5 de 7B (muy eficiente, multilingüe con buen español):
El primer run descarga el modelo (puede tardar varios minutos según la conexión). Los siguientes arrancan directamente desde caché.

Gestión de modelos
Los modelos se almacenan en ~/.ollama/models en Mac/Linux y en C:\Users\[usuario]\.ollama en Windows.
Open WebUI: la interfaz gráfica
La línea de comandos funciona, pero Open WebUI ofrece una interfaz similar a ChatGPT para usar tus modelos locales desde el navegador. Requiere Docker:
Accede a http://localhost:3000 en tu navegador. Crea una cuenta local (los datos se quedan en tu máquina) y ya tienes una interfaz completa con historial de conversaciones, subida de documentos, cambio entre modelos y más.

Qué modelo elegir según tu hardware
Hardware | Modelo recomendado | Velocidad esperada
Mac M2/M3 16 GB | Llama 4 Scout / Qwen 2.5 7B | 15-25 tokens/s
Mac M4 Pro 24 GB | DeepSeek R1 14B / Llama 4 Maverick | 20-35 tokens/s
PC RTX 4070 16 GB VRAM | DeepSeek R1 14B | 30-50 tokens/s
PC RTX 5080 16 GB VRAM | DeepSeek R1 32B | 20-35 tokens/s
Los tokens por segundo determinan la fluidez de las respuestas. Por debajo de 10 tokens/s la experiencia es frustrante. Por encima de 20 es cómoda para uso normal.

Preguntas frecuentes
¿Los modelos locales son tan buenos como ChatGPT o Claude?
Para muchas tareas cotidianas, los modelos de 14B+ cuantizados son sorprendentemente buenos. Para tareas muy complejas que requieren razonamiento profundo, los mejores modelos en la nube siguen siendo superiores. Para privacidad total y uso sin límites: la IA local gana.
¿Qué es la cuantización Q4_K_M que veo en los modelos?
Es una técnica de compresión que reduce el tamaño del modelo sacrificando algo de precisión. Q4_K_M es el equilibrio más popular: reduce a la mitad el tamaño respecto al original float16 con pérdida de calidad mínima. Es lo que descarga Ollama por defecto.
¿Funciona sin internet después de la descarga?
Sí. Una vez descargado el modelo, no necesitas internet para ejecutarlo. Ideal para uso en zonas sin cobertura o para máxima privacidad.



