Autoalojar un LLM solía significar comprometer la calidad. Eso ya no es así. La brecha entre los modelos cerrados de frontera y las mejores alternativas de código abierto se ha estrechado hasta el punto en que, para la mayoría de cargas de trabajo en producción, puedes ejecutar localmente sin extrañar una API de clase GPT-4. El inconveniente: los requisitos de hardware, restricciones de licencia e intercambios de inferencia varían enormemente. Aquí te mostramos cómo elegir sin perder un fin de semana.
Cómo hicimos la selección
Evaluamos los modelos según cuatro criterios: calidad de referencia relativa al tamaño, hardware mínimo viable (usando cuantización de 4 bits como línea base), permisividad de licencia (Apache 2.0 / MIT supera las licencias comunitarias personalizadas para uso comercial) y soporte del ecosistema en herramientas como Ollama, vLLM y TGI. Se excluyeron modelos que existen solo como ofertas API-first — todo aquí se ejecuta en hardware que controlas.
Las estimaciones de VRAM utilizan la regla práctica INT4: ~0,5 bytes por parámetro, más 10–20% de sobrecarga de caché KV. Los valores predeterminados de Ollama usan cuantización Q4KM, que es un punto de partida razonable para la mayoría de usuarios.
---
Los 7 mejores LLMs de código abierto para autoalojar
1. Mistral 7B — Mejor para despliegues de baja latencia en una sola GPU
Licencia: Apache 2.0 | VRAM: ~14 GB | Contexto: 32K
Mistral 7B sigue siendo el modelo más práctico para equipos que ejecutan una sola GPU de consumidor (RTX 3090/4090). Apache 2.0 significa cero fricción legal para productos comerciales. La inferencia es lo suficientemente rápida para chat en tiempo real sin trucos de procesamiento por lotes.
Ventajas: Licencia genuinamente permisiva; se ejecuta en una GPU; excelentes tokens/seg; soporte comunitario masivo. Desventajas: Los 7B parámetros muestran sus límites en razonamiento complejo de múltiples pasos; la ventana de contexto es más pequeña que en modelos más nuevos.
---
2. Mixtral 8×7B — Mejor MoE eficiente en costo para tareas generales
Licencia: Apache 2.0 | VRAM: ~28–32 GB (4-bit) | Parámetros activos: 12,9B | Contexto: 32K
Mixtral enruta cada token a través de 2 de 8 redes de expertos, por lo que obtienes ~46,7B parámetros totales pero solo pagas el costo computacional de ~12,9B activos. Alcanza ~70% en MMLU — competitivo con modelos densos mucho más grandes — mientras cabe en dos RTX 4090 a 4-bit. La licencia Apache 2.0 lo convierte en una opción comercial limpia.
Ventajas: Puntuaciones de referencia sólidas por costo de inferencia; Apache 2.0; bien soportado en vLLM y Ollama. Desventajas: La arquitectura MoE significa mayores requisitos de ancho de banda de memoria que un modelo denso puro de 13B; no es multimodal.
---
3. Gemma 3 27B — Mejor para despliegues empresariales conscientes de seguridad
Licencia: Términos de Google Gemma (uso comercial permitido tras aceptación) | VRAM: ~18 GB (4-bit) | Contexto: 128K | Idiomas: 140+
Gemma 3 27B supera a Llama 3.1 405B en evaluaciones de preferencia humana mientras cabe en una sola GPU de consumidor de gama alta — una relación tamaño-calidad notable. Soporta 140+ idiomas e entrada multimodal desde la variante de 4B en adelante. El ajuste de seguridad de Google lo convierte en una opción defendible para industrias reguladas.
Ventajas: Una sola GPU a 27B; contexto de 128K; multilingüe sólido; inversión en seguridad de Google integrada. Desventajas: Licencia personalizada (no Apache/MIT) — lee los términos antes del despliegue comercial; Google puede actualizar la política de uso aceptable.
---
4. Llama 3.3 70B — Mejor calidad general para equipos con hardware multi-GPU
Licencia: Licencia Comunitaria Llama 3 | VRAM: ~40 GB (Q4KM) | Contexto: 128K
Para equipos que pueden dedicar dos A100 o cuatro RTX 4090 a un modelo, Llama 3.3 70B es el techo de calidad actual para modelos de texto de peso abierto. El seguimiento de instrucciones es excelente, los pipelines de RAG funcionan de manera confiable, y el soporte del ecosistema es el mejor de cualquier modelo en esta lista. A diferencia de Llama 4, no hay restricción multimodal de la UE.
Ventajas: Calidad de clase mundial para texto de peso abierto; comunidad masiva; desempeño sólido en RAG y agentes. Desventajas: Requiere ~40 GB VRAM a 4-bit — ese es un costo de hardware real; la licencia comunitaria Llama tiene límites comerciales (organizaciones >700M MAU necesitan un acuerdo separado).
---
5. DeepSeek R1 (destilación 32B) — Mejor para matemáticas, razonamiento y cadena de pensamiento
Licencia: MIT | VRAM: ~20 GB (4-bit) | Contexto: 128K
La variante destilada de 32B de DeepSeek R1 logra aproximadamente 90% en referencias de matemáticas AIME — una puntuación que era territorio de modelo de frontera hace seis meses. La licencia MIT es tan permisiva como se puede conseguir. El modelo MoE completo de 671B necesita un servidor multi-GPU, pero la destilación de 32B es el punto dulce: calidad de razonamiento que supera ampliamente su peso, en hardware que es realmente accesible.
Ventajas: Licencia MIT; razonamiento y matemáticas excepcionales; variantes destiladas escalan de 1,5B a 70B. Desventajas: Optimizado para tareas de cadena de pensamiento; más lento para preguntas simples que un generalista de 7B; el origen de empresa china puede ser una preocupación de adquisición para algunas organizaciones.
---
6. Phi-4 (~14B) — Mejor para entornos de borde y con restricciones de memoria
Licencia: MIT | VRAM: ~9 GB (4-bit) | Contexto: 16K
Phi-4 de Microsoft supera consistentemente modelos del doble de su tamaño en referencias de razonamiento y conocimiento. Licencia MIT, VRAM inferior a 10 GB a 4-bit, y sólida capacidad de codificación lo convierten en la opción predeterminada para despliegues de borde, servidores clase Raspberry Pi, o cualquier configuración donde la memoria es la restricción dura.
Ventajas: Licencia MIT; se ejecuta en una GPU de rango medio o Apple Silicon; razonamiento sólido por GB de VRAM. Desventajas: Ventana de contexto más corta; no es multimodal; comunidad más pequeña que Llama o Mistral.
---
7. Qwen 2.5 72B — Mejor para cargas de trabajo multilingües y de codificación
Licencia: Apache 2.0 | VRAM: ~40 GB (4-bit) | Contexto: 128K
Qwen 2.5 72B iguala a Llama 3.3 70B en la mayoría de referencias en inglés y se adelanta en chino, matemáticas y código. Apache 2.0 es una ventaja genuina sobre la licencia comunitaria de Llama para equipos comerciales. Si tu base de usuarios es multilingüe o tu caso de uso principal es generación de código, Qwen 2.5 72B es la mejor opción.
Ventajas: Apache 2.0; multilingüe de clase mundial (especialmente idiomas CJK); generación de código sólida; competitivo con Llama 3.3 70B en general. Desventajas: Mismos requisitos de hardware que Llama 3.3 70B; el origen de Alibaba puede enfrentar el mismo escrutinio de adquisición que DeepSeek.
---
Tabla comparativa
| Modelo | Parámetros activos | VRAM mín. (4-bit) | Contexto | Licencia | Mejor para |
|---|---|---|---|---|---|
| Mistral 7B | 7B | ~14 GB | 32K | Apache 2.0 | Baja latencia, una GPU |
| Mixtral 8×7B | 12,9B | ~28–32 GB | 32K | Apache 2.0 | Uso general eficiente |
| Gemma 3 27B | 27B | ~18 GB | 128K | Términos Gemma | Empresa, seguridad, multilingüe |
| Llama 3.3 70B | 70B | ~40 GB | 128K | Llama 3 Community | Mejor calidad texto, RAG |
| DeepSeek R1 32B | 32B | ~20 GB | 128K | MIT | Matemáticas, razonamiento, CoT |
| Phi-4 14B | 14B | ~9 GB | 16K | MIT | Borde, baja memoria |
| Qwen 2.5 72B | 72B | ~40 GB | 128K | Apache 2.0 | Multilingüe, codificación |
---
Recomendación por caso de uso
Tienes una GPU de consumidor (16–24 GB VRAM): Comienza con Mistral 7B para velocidad o Gemma 3 12B para calidad. Ambos se ejecutan en Ollama con un único comando.
Necesitas la mejor calidad y tienes dos A100 o cuatro RTX 4090: Llama 3.3 70B para cargas de trabajo enfocadas en inglés; Qwen 2.5 72B si necesitas Apache 2.0 o cobertura multilingüe.
Tu carga de trabajo es matemáticas, ciencia o razonamiento de múltiples pasos: DeepSeek R1 destilación 32B es el claro ganador. La licencia MIT elimina cualquier fricción comercial.
Estás desplegando en el borde o en Apple Silicon con RAM limitada: Phi-4 a cuantización 4-bit. Nada más en este rango de memoria se acerca en tareas de razonamiento.
Necesitas una licencia Apache 2.0 o MIT limpia para un producto comercial: Elimina Llama 4 (restricciones de la UE, licencia comunitaria) y Gemma (términos personalizados). Tu lista corta es Mistral 7B, Mixtral 8×7B, Qwen 2.5 72B, DeepSeek R1 y Phi-4.
Realidad de costos: Ejecutar un modelo de 7B en una GPU en la nube cuesta aproximadamente $300–800/mes. El punto de equilibrio contra una API comercial típicamente ocurre en algún lugar entre 100K y 500K consultas/mes, dependiendo de tu nivel de precios de API. Por debajo de ese umbral, autoalojar es una decisión arquitectónica, no una optimización de costos.
Este artículo fue redactado con asistencia de IA, revisado y editado por un editor humano, y todas las especificaciones de hardware, términos de licencia y afirmaciones de referencias fueron verificadas contra las fuentes de investigación citadas antes de la publicación.