Ejecutar IA Localmente: Guía Completa 2024

Ya sea que estés cansado de los límites de velocidad de las API, preocupado por enviar datos sensibles a servidores de terceros, o simplemente quieras un modelo que funcione sin conexión, ejecutar IA localmente ahora es genuinamente práctico. Esta guía cubre las tres herramientas principales, el hardware que realmente necesitas y los pasos para poner un modelo en funcionamiento hoy mismo.

Por qué ejecutar modelos de IA localmente

El caso es directo:

Privacidad: tus indicaciones y documentos nunca salen de tu máquina
Costo: sin facturación por token, sin niveles de suscripción
Control: elige tu modelo, nivel de cuantización, longitud de contexto y indicación del sistema sin restricciones de plataforma
Confiabilidad: sin interrupciones, sin deprecaciones, sin límites de velocidad

La compensación es el hardware. Las APIs en la nube trasladan el cálculo a un clúster de GPU de otra persona. Localmente, ese es tu problema.

Requisitos de hardware

Antes de descargar nada, sé honesto sobre tu máquina.

RAM y VRAM

La regla práctica: el modelo debe caber en memoria. Para inferencia en GPU, eso significa VRAM. Para inferencia solo en CPU, RAM del sistema.

Tamaño del modelo	Cuantización	VRAM necesaria	RAM de CPU (solo CPU)
7B	Q4KM	~4–6 GB	8–12 GB
13B	Q4KM	~8–12 GB	16–24 GB
32B	Q4KM	~20–24 GB	32+ GB
70B	Q4KM	40–48 GB	64+ GB

La inferencia solo en CPU funciona, pero espera 2–8 tokens/segundo en un modelo de 7B — usable para tareas por lotes, incómodo para chat interactivo.

Notas por plataforma

NVIDIA: mejor soporte de ecosistema en las tres herramientas; RTX 3060 con 12 GB es un buen punto de entrada
Apple Silicon (serie M): la memoria unificada cuenta como VRAM; un M2 Pro con 32 GB puede ejecutar cómodamente modelos de 13B; la aceleración MLX está integrada en Ollama
AMD: soporte ROCm 6.1 en Ollama; mejorando pero aún rezagado en compatibilidad respecto a NVIDIA
Windows CPU: se requiere soporte AVX2 para LM Studio; verifica con wmic cpu get caption en PowerShell

---

Las tres herramientas

Ollama — Lo mejor para desarrolladores y flujos de trabajo CLI

Ollama es el camino más rápido de cero a un modelo en funcionamiento. Se instala como servidor local en el puerto 11434, gestiona automáticamente las descargas de modelos y expone una API REST compatible con OpenAI lista para usar.

Instalar (macOS/Linux):

curl -fsSL https://ollama.com/install.sh | sh

Windows: descarga el instalador desde ollama.com/download/windows. Una aplicación de escritorio nativa se lanzó a mediados de 2025.

Ejecuta tu primer modelo:

ollama run llama3

Esto descarga el modelo si no está en caché, luego te abre un chat interactivo. Para descargar previamente sin ejecutar:

ollama pull qwen3:8b

Usa la API:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "llama3", "messages": [{"role": "user", "content": "Hola"}]}'

Este endpoint es compatible con OpenAI, así que puedes apuntar herramientas existentes (Open WebUI, Continue.dev, LangChain) a http://localhost:11434 con cambios de configuración mínimos.

Características notables de 2025: Modo de razonamiento para modelos de razonamiento DeepSeek y Qwen3, decodificación especulativa (aproximadamente 2× más rápido en configuraciones multi-GPU), salida JSON estructurada y llamadas de herramientas en streaming. La cuantización predeterminada es Q4KM a partir de v0.6.0.

Veredicto: Si eres desarrollador integrando IA local en una aplicación o flujo de trabajo, Ollama es la opción predeterminada correcta. Sin complejidad de GUI, excelente API y la biblioteca de modelos más amplia.

---

LM Studio — Lo mejor para usuarios de GUI y experimentación

LM Studio es una aplicación de escritorio con navegador de modelos completo, interfaz de chat de arrastrar y soltar, y soporte RAG integrado. Es la herramienta correcta si quieres explorar modelos visualmente sin tocar una terminal.

Instalar: descarga desde lmstudio.ai para macOS, Windows o Linux (Linux ARM agregado en 2025).

Flujo de trabajo clave:

Abre la pestaña Discover y busca un modelo (p. ej., Phi-4, Mistral 24B)
Selecciona una variante GGUF que se ajuste a tu VRAM
Cárgalo en la interfaz de chat o habilita el servidor local

El servidor local de LM Studio ahora admite tres formatos de API: compatible con OpenAI, su propia API REST nativa (/api/v1/*) y una API compatible con Anthropic (agregada en v0.4.1). Esta última es útil si estás probando código escrito contra la API de Claude.

El SDK de Python (pip install lmstudio) y los SDK de JS/TS son ambos estables para producción. Para uso sin interfaz gráfica o CI, el daemon llmster se ejecuta sin la GUI.

El uso comercial es gratuito a partir de 2025 — sin formulario, sin clave de licencia.

Veredicto: Lo mejor para no desarrolladores, investigadores o cualquiera que quiera comparar modelos rápidamente sin escribir código. El navegador de modelos por sí solo ahorra tiempo significativo.

---

llama.cpp — Lo mejor para usuarios avanzados e implementaciones edge

llama.cpp es el motor de inferencia C++ que Ollama y LM Studio usan bajo el capó. Ejecutarlo directamente te da control máximo: banderas de cuantización exactas, parámetros de muestreo personalizados, selección de backend Vulkan/Metal/CUDA, y la capacidad de incrustarlo en tus propias aplicaciones.

Compilar desde el código fuente (Linux/macOS con CUDA):

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j$(nproc)

Ejecuta un modelo GGUF:

./build/bin/llama-cli -m ./models/phi-4-Q4_K_M.gguf -p "Explica los transformers" -n 512

Descarga archivos GGUF directamente desde Hugging Face (busca GGUF en cualquier repositorio de modelo). Formatos de cuantización a conocer:

Formato	Calidad	Uso de VRAM	Usar cuando
Q4KM	Buena	Bajo	Opción predeterminada
Q5KM	Mejor	Moderado	VRAM extra disponible
Q8_0	Casi sin pérdida	Alto	Benchmarking, crítico en calidad
F16	Precisión completa	Muy alto	Preparación de ajuste fino

Veredicto: No es el punto de partida correcto a menos que tengas una razón específica — backend personalizado, implementación integrada, o necesites exprimir cada token de rendimiento del hardware limitado.

---

Comparación de herramientas

	Ollama	LM Studio	llama.cpp
Facilidad de configuración	★★★★★	★★★★☆	★★☆☆☆
GUI	Básica (app 2025)	Aplicación de escritorio completa	Ninguna
Compatibilidad de API	OpenAI	OpenAI + Anthropic	Manual / personalizada
Gestión de modelos	Automática	Navegador + manual	Manual
Nivel de control	Medio	Medio	Máximo
Lo mejor para	Devs, integraciones	Usuarios de GUI, exploración	Usuarios avanzados, edge

---

Qué modelos usar para comenzar

4–8 GB VRAM: Phi-4 (4B), Llama 3.2 3B, Gemma 3n — rápidos, capaces para la mayoría de tareas
12–16 GB VRAM: Qwen3-8B, Mistral 7B — mejor razonamiento, aún rápidos
24 GB VRAM: Mistral 24B, destilaciones DeepSeek-R1 — codificación y razonamiento sólidos
40+ GB o multi-GPU: Llama 3.3 70B, Qwen3-32B — calidad casi fronteriza localmente

Para tareas de razonamiento, Qwen3 y las destilaciones DeepSeek-R1 funcionan muy bien por encima de su número de parámetros. Para codificación, Phi-4 es sorprendentemente capaz en 4B.

---

Errores comunes

Modelo demasiado grande para VRAM: Ollama y LM Studio recurrirán a descarga en CPU, que es lenta. Verifica VRAM antes de descargar un modelo de 13B en una tarjeta de 6 GB.

Generación lenta en CPU: Espera 2–5 tokens/segundo. Esto es normal. Usa un modelo más pequeño o agrega una GPU.

Ollama no responde: Verifica que ollama serve esté en ejecución. En Linux, systemctl status ollama confirma el estado del servicio.

Cuantización incorrecta: Q4KM es el predeterminado correcto. Q4_0 es más antiguo y ligeramente menor calidad por el mismo tamaño. Evítalo a menos que una herramienta específica lo requiera.

Límites de longitud de contexto: Los modelos locales tienen ventanas de contexto más cortas que sus contrapartes en la nube. En Ollama, establece num_ctx en un Modelfile o mediante el parámetro de API para extenderlo — al costo de más VRAM.

---

Conclusión

Ejecutar modelos de IA localmente ya no es un experimento de aficionados — es una opción práctica para trabajo sensible a la privacidad, constructores conscientes de costos y cualquiera que necesite inferencia confiable sin conexión.

Comienza con Ollama si eres desarrollador. Un comando de instalación, API compatible con OpenAI y una biblioteca de modelos que cubre el 95% de casos de uso. Usa LM Studio si quieres una GUI y no quieres tocar la terminal. Baja a llama.cpp solo cuando necesites control que las herramientas de nivel superior no expongan.

Para la mayoría de personas con hardware moderno, un modelo de 7–8B Q4KM se ejecuta bien en una GPU de rango medio y entrega resultados genuinamente útiles. La brecha entre local y nube se ha estrechado considerablemente — y para muchas cargas de trabajo, se ha cerrado completamente.

Este artículo fue redactado con asistencia de IA, revisado y editado por un editor humano, y verificado contra las fuentes de investigación proporcionadas; los números de versión se anotan como aproximados donde las páginas de lanzamiento oficial no pudieron confirmarse completamente.

Cómo ejecutar modelos de IA localmente: la guía completa