Cómo instalar Ollama y usar IA local en tu ordenador sin nub

Ollama es la forma más sencilla de ejecutar modelos de lenguaje en tu propio ordenador. Con tres comandos tienes Llama 4, DeepSeek R1 o Qwen 2.5 funcionando localmente, sin enviar datos a ningún servidor, sin suscripciones y sin límites de uso.

En 2026, con modelos cada vez más eficientes y hardware doméstico más capaz, la IA local ha pasado de ser un proyecto de entusiasta a una alternativa práctica para muchos casos de uso.

Qué necesitas para empezar

Hardware mínimo recomendado:

●16 GB de RAM para modelos de 7B parámetros (velocidad básica)
●32 GB de RAM o VRAM para modelos de 13-14B (velocidad cómoda)
●Mac con chip M2 o posterior: excelente por la memoria unificada CPU+GPU
●PC con NVIDIA RTX 3070 o superior: la GPU acelera enormemente la inferencia

Con 8 GB de RAM puedes ejecutar modelos muy pequeños (3B) pero la experiencia es lenta. Con 16 GB los modelos de 7B van bien. Con 32 GB o más, los modelos de 14B son muy utilizables.

Instalación de Ollama

En macOS:

O descarga el instalador desde ollama.com.

En Windows:

Descarga el instalador .exe desde ollama.com y ejecútalo. Se instala como servicio en segundo plano.

En Linux:

Para verificar que funciona:

Descargar y ejecutar tu primer modelo

Para descargar y ejecutar Llama 4 Scout (el modelo más eficiente de la familia):

Para DeepSeek R1 de 14B (excelente razonamiento, requiere ~10 GB de espacio):

Para Qwen 2.5 de 7B (muy eficiente, multilingüe con buen español):

El primer run descarga el modelo (puede tardar varios minutos según la conexión). Los siguientes arrancan directamente desde caché.

Descarga de modelo de IA con Ollama en terminal

Gestión de modelos

Los modelos se almacenan en ~/.ollama/models en Mac/Linux y en C:\Users\[usuario]\.ollama en Windows.

Open WebUI: la interfaz gráfica

La línea de comandos funciona, pero Open WebUI ofrece una interfaz similar a ChatGPT para usar tus modelos locales desde el navegador. Requiere Docker:

Accede a http://localhost:3000 en tu navegador. Crea una cuenta local (los datos se quedan en tu máquina) y ya tienes una interfaz completa con historial de conversaciones, subida de documentos, cambio entre modelos y más.

Interfaz gráfica Open WebUI para usar IA local con Ollama

Qué modelo elegir según tu hardware

Hardware | Modelo recomendado | Velocidad esperada

Mac M2/M3 16 GB | Llama 4 Scout / Qwen 2.5 7B | 15-25 tokens/s

Mac M4 Pro 24 GB | DeepSeek R1 14B / Llama 4 Maverick | 20-35 tokens/s

PC RTX 4070 16 GB VRAM | DeepSeek R1 14B | 30-50 tokens/s

PC RTX 5080 16 GB VRAM | DeepSeek R1 32B | 20-35 tokens/s

Los tokens por segundo determinan la fluidez de las respuestas. Por debajo de 10 tokens/s la experiencia es frustrante. Por encima de 20 es cómoda para uso normal.

Comparativa de velocidad de inferencia de IA local en diferentes hardware

Preguntas frecuentes

¿Los modelos locales son tan buenos como ChatGPT o Claude?

Para muchas tareas cotidianas, los modelos de 14B+ cuantizados son sorprendentemente buenos. Para tareas muy complejas que requieren razonamiento profundo, los mejores modelos en la nube siguen siendo superiores. Para privacidad total y uso sin límites: la IA local gana.

¿Qué es la cuantización Q4_K_M que veo en los modelos?

Es una técnica de compresión que reduce el tamaño del modelo sacrificando algo de precisión. Q4_K_M es el equilibrio más popular: reduce a la mitad el tamaño respecto al original float16 con pérdida de calidad mínima. Es lo que descarga Ollama por defecto.

¿Funciona sin internet después de la descarga?

Sí. Una vez descargado el modelo, no necesitas internet para ejecutarlo. Ideal para uso en zonas sin cobertura o para máxima privacidad.

En 2026, con modelos cada vez más eficientes y hardware doméstico más capaz, la IA local ha pasado de ser un proyecto de entusiasta a una alternativa práctica para muchos casos de uso.

Qué necesitas para empezar

Hardware mínimo recomendado:

●16 GB de RAM para modelos de 7B parámetros (velocidad básica)
●32 GB de RAM o VRAM para modelos de 13-14B (velocidad cómoda)
●Mac con chip M2 o posterior: excelente por la memoria unificada CPU+GPU
●PC con NVIDIA RTX 3070 o superior: la GPU acelera enormemente la inferencia

Con 8 GB de RAM puedes ejecutar modelos muy pequeños (3B) pero la experiencia es lenta. Con 16 GB los modelos de 7B van bien. Con 32 GB o más, los modelos de 14B son muy utilizables.

Instalación de Ollama

En macOS:

O descarga el instalador desde ollama.com.

En Windows:

Descarga el instalador .exe desde ollama.com y ejecútalo. Se instala como servicio en segundo plano.

En Linux:

Para verificar que funciona:

Descargar y ejecutar tu primer modelo

Para descargar y ejecutar Llama 4 Scout (el modelo más eficiente de la familia):

Para DeepSeek R1 de 14B (excelente razonamiento, requiere ~10 GB de espacio):

Para Qwen 2.5 de 7B (muy eficiente, multilingüe con buen español):

El primer run descarga el modelo (puede tardar varios minutos según la conexión). Los siguientes arrancan directamente desde caché.

Gestión de modelos

Los modelos se almacenan en ~/.ollama/models en Mac/Linux y en C:\Users\[usuario]\.ollama en Windows.

Open WebUI: la interfaz gráfica

La línea de comandos funciona, pero Open WebUI ofrece una interfaz similar a ChatGPT para usar tus modelos locales desde el navegador. Requiere Docker:

Qué modelo elegir según tu hardware

Hardware | Modelo recomendado | Velocidad esperada

Mac M2/M3 16 GB | Llama 4 Scout / Qwen 2.5 7B | 15-25 tokens/s

Mac M4 Pro 24 GB | DeepSeek R1 14B / Llama 4 Maverick | 20-35 tokens/s

PC RTX 4070 16 GB VRAM | DeepSeek R1 14B | 30-50 tokens/s

PC RTX 5080 16 GB VRAM | DeepSeek R1 32B | 20-35 tokens/s

Los tokens por segundo determinan la fluidez de las respuestas. Por debajo de 10 tokens/s la experiencia es frustrante. Por encima de 20 es cómoda para uso normal.

Preguntas frecuentes

¿Los modelos locales son tan buenos como ChatGPT o Claude?

¿Qué es la cuantización Q4_K_M que veo en los modelos?

¿Funciona sin internet después de la descarga?

Sí. Una vez descargado el modelo, no necesitas internet para ejecutarlo. Ideal para uso en zonas sin cobertura o para máxima privacidad.

Cómo instalar Ollama y usar IA local en tu ordenador sin nube ni suscripciones

Qué necesitas para empezar

Instalación de Ollama

Descargar y ejecutar tu primer modelo

Gestión de modelos

Open WebUI: la interfaz gráfica

Qué modelo elegir según tu hardware

Preguntas frecuentes

Fuentes consultadas

Alejandro Mora

Artículos relacionados

WWDC 2026: cómo seguirlo, qué esperar de iOS 26 y cómo acceder a las betas

Cómo configurar el iPhone 17e desde cero: guía completa de primer encendido

Cómo usar agentes de IA para automatizar tareas de trabajo en 2026

Cómo instalar Ollama y usar IA local en tu ordenador sin nube ni suscripciones

Qué necesitas para empezar

Instalación de Ollama

Descargar y ejecutar tu primer modelo

Gestión de modelos

Open WebUI: la interfaz gráfica

Qué modelo elegir según tu hardware

Preguntas frecuentes

Fuentes consultadas

Alejandro Mora

Artículos relacionados

WWDC 2026: cómo seguirlo, qué esperar de iOS 26 y cómo acceder a las betas

Cómo configurar el iPhone 17e desde cero: guía completa de primer encendido

Cómo usar agentes de IA para automatizar tareas de trabajo en 2026