Ejecutar modelos de lenguaje en tu propia máquina ya es realista para cualquiera con una GPU moderna o un Mac con Apple Silicon. La inferencia local mantiene tus datos privados, elimina el coste por token y funciona sin conexión. Los dos puntos de entrada más populares son Ollama (CLI, open source) y LM Studio (una GUI cuidada).

Empieza comprobando tu VRAM disponible, elige un modelo cuantizado que quepa y prueba primero uno pequeño para validar la instalación. Desde ahí puedes conectar el modelo local a tus apps mediante una API compatible con OpenAI. Esta guía se actualiza según evoluciona el ecosistema.