Gemma 4: cómo MoE y QAT permiten correr un modelo de 26B parámetros en 15 GB de RAM

Durante la última década, la potencia de un modelo de lenguaje se midió en parámetros, y correrlo se midió en el precio de la GPU. Gemma 4, la familia de modelos de pesos abiertos de Google, rompe esa correlación con dos técnicas de ingeniería que trasladan la conversación del cómputo hacia la memoria RAM. El resultado tiene consecuencias directas para desarrolladores, pymes y startups que quieren IA privada sin pagar facturas de API impredecibles.

El problema: el modelo no cabe, pero la nube es cara

Un modelo de lenguaje grande necesita cargar todos sus pesos en memoria para generar texto. Históricamente eso significaba GPUs de centro de datos con decenas de gigabytes de VRAM, o pagar por cada token a una API en la nube. Para una empresa pequeña, ambas rutas tienen fricción: la primera por costo de hardware, la segunda por costo variable y por la necesidad de enviar datos sensibles a un tercero.

La familia Gemma 4 ataca ese problema desde el diseño. Sus variantes van desde modelos diminutos para teléfonos (E2B, ~2,3B efectivos; E4B, ~4,5B) hasta un modelo denso de 31B para máxima calidad, pasando por la pieza más interesante para uso profesional: el 26B-A4B, un modelo de tipo Mixture of Experts. Lo que vuelve viable correr estos modelos en hardware accesible no es un único truco, sino la combinación de dos.

Primera técnica: Mixture of Experts (MoE)

La arquitectura Mixture of Experts divide la red en muchos sub-modelos especializados —los "expertos"— y usa un enrutador que decide, token por token, cuáles activar. En el caso del Gemma 4 26B-A4B, la "A4B" significa active 4 billion: de sus 26.000 millones de parámetros totales, solo se activan unos 3.800 millones por cada token procesado.

Concretamente, el modelo organiza su conocimiento en 128 expertos pequeños, de los cuales solo 8 se encienden para cualquier token dado, según el desglose técnico publicado sobre el modelo [2] [3]. La consecuencia es contraintuitiva pero poderosa: el modelo piensa como uno de 26B, pero cuesta computar como uno de menos de 4B.

Calidad sin pagar el cómputo completo

Los benchmarks de Google para 2026 muestran que esta eficiencia no sacrifica capacidad. El 26B-A4B alcanza 88,3% en el examen de matemáticas AIME 2026, 77,1% en programación competitiva (LiveCodeBench v6) y 82,3% en ciencia de nivel posgrado (GPQA Diamond) [1] [4]. En el bracket de hardware de 14–16 GB de VRAM, el modelo tiene una ventaja de calidad sustancial en tareas de razonamiento —matemática, código y lógica multi-paso— frente a alternativas densas comparables.

La diferencia frente a un modelo denso es clave para el presupuesto de inferencia: en un modelo denso de tamaño equivalente, todos los parámetros se activan en cada token. MoE mantiene la memoria ocupada por el modelo completo, pero reduce drásticamente el cómputo por token, lo que se traduce en respuestas más rápidas y menor consumo energético.

Segunda técnica: Quantization-Aware Training (QAT)

MoE resuelve el cómputo, pero el modelo todavía debe caber en memoria. Ahí entra la segunda técnica. El 5 de junio de 2026, Google DeepMind liberó checkpoints de Gemma 4 optimizados con Quantization-Aware Training (QAT), una técnica que, en lugar de comprimir el modelo después de entrenarlo, simula la matemática de 4 bits durante el entrenamiento para que el modelo aprenda a tolerar esa precisión reducida [6].

El efecto sobre la memoria es decisivo: QAT recorta el uso de RAM en aproximadamente 72% conservando una calidad cercana a la original. En la práctica, el checkpoint QAT del 26B-A4B carga en torno a 15 GB en 4 bits, lo que significa que una Mac de 16 GB de memoria unificada o una GPU de 16 GB (como una RTX 4060) pueden ejecutarlo [5] [6].

La tabla que importa: RAM por variante

Con cuantización de 4 bits (QAT), los requisitos aproximados de memoria total quedan así [5] [7]:

Variante	RAM aprox. (4-bit QAT)
E2B	~3 GB
E4B	~5 GB
12B	~7 GB
26B-A4B	~15 GB
31B	~18 GB

Herramientas como Ollama descargan por defecto la versión INT4 (Q4_K_M), reduciendo el uso de memoria entre 55% y 60%, y gestionan automáticamente el offloading a GPU según el hardware disponible. Incluso es posible correr en CPU sin GPU, aunque entre 5 y 10 veces más lento.

La regla mental que se desprende para elegir hardware: 8 GB de RAM alcanzan para modelos de 4 a 12B; 16 GB habilitan el 26B-A4B MoE —el "punto dulce" de calidad/costo—; y 32 GB o más dan margen para el 31B denso.

Qué significa esto para el negocio

La combinación MoE + QAT desplaza la barrera de entrada a la IA privada de forma medible. Para un equipo de desarrollo o una pyme, las implicaciones son tres.

Privacidad y cumplimiento: tareas como clasificación de documentos, extracción de datos, resúmenes o borradores de código pueden ejecutarse localmente, sin que la información salga de la máquina. Previsibilidad de costos: el gasto variable de una API se reemplaza por el costo fijo de hardware que, en muchos casos, la empresa ya posee. Accesibilidad: 16 GB de RAM unificada —presentes en laptops de gama media— bastan para un modelo con capacidad de razonamiento competitiva.

Esto no elimina el rol de las APIs en la nube ni de los modelos frontera; para tareas de máxima complejidad, un orquestador en la nube sigue teniendo sentido. Pero sí cambia el cálculo: una porción creciente del trabajo rutinario de IA puede migrar a local, y el criterio de compra de hardware se vuelve, ante todo, una cuestión de gigabytes de memoria.

Conclusión

Gemma 4 condensa una tendencia más amplia de 2026: la eficiencia arquitectónica está democratizando el acceso a modelos potentes. MoE reduce el cómputo activando solo una fracción de los parámetros; QAT reduce la memoria entrenando al modelo para vivir en 4 bits. Juntas, permiten que un modelo con calidad de razonamiento de élite quepa en una laptop de 16 GB. El mensaje para quien planifica infraestructura de IA es directo: dejá de medir los modelos en parámetros y empezá a medirlos en los gigas de RAM que tenés disponibles. Esa es, hoy, la métrica que decide qué IA podés correr —y cuánto te cuesta.

¿Te sirvió este desglose? En No BS AI publicamos análisis técnicos sin humo sobre IA aplicada a desarrollo y negocio. Suscribite al newsletter y comentá qué herramienta querés que analicemos a fondo en el próximo episodio.

Fuentes {#fuentes}

Google AI for Developers. "Gemma 4 model overview". 2026. https://ai.google.dev/gemma/docs/core
Google (Hugging Face). "google/gemma-4-26B-A4B". 2026. https://huggingface.co/google/gemma-4-26B-A4B
Govrani, Pulkit. "Gemma 4 26B A4B: What 'Mixture of Experts' Actually Means for Your Inference Budget". DEV Community. 2026. https://dev.to/pulkitgovrani/gemma-4-26b-a4b-what-mixture-of-experts-actually-means-for-your-inference-budget-13hj
Tang, James. "Benchmarking Gemma-4–26B (A4B) on the DGX Spark". Medium. Mayo 2026. https://medium.com/@james-tang/benchmarking-gemma-4-26b-a4b-on-the-dgx-spark-dc8245292095
Oflight Inc. "Gemma 4 System Requirements — 5–62GB VRAM, RTX 3060 to H100 by Variant (E2B/E4B/26B/31B) [2026 Guide]". 2026. https://www.oflight.co.jp/en/columns/gemma4-hardware-requirements-local-ai-spec-2026
Lushbinary. "Gemma 4 QAT Self-Hosting Guide: Ollama, vLLM". 2026. https://lushbinary.com/blog/gemma-4-qat-self-hosting-guide-ollama-llama-cpp-vllm/
Aurigait. "Gemma 4 by Google: Specs, Benchmarks, Model Sizes, and How to Run It Locally (2026 Guide)". 2026. https://aurigait.com/blog/gemma-4-features-benchmarks-guide/
Labellerr. "Google Gemma 4: A Technical Overview". 2026. https://www.labellerr.com/blog/gemma-4-open-weight-ai-model-overview/

Gemma 4: cómo MoE y QAT permiten correr un modelo de 26B parámetros en 15 GB de RAM

El problema: el modelo no cabe, pero la nube es cara

Primera técnica: Mixture of Experts (MoE)

Calidad sin pagar el cómputo completo

Segunda técnica: Quantization-Aware Training (QAT)

La tabla que importa: RAM por variante

Qué significa esto para el negocio

Conclusión

Fuentes {#fuentes}

Artículos relacionados

Anthropic redespliega Claude Fable 5 tras el levantamiento de controles de exportación de EE.UU.

Chrome DevTools for agents 1.0: el navegador deja de ser una caja negra para tu agente de AI

El fin de la IA sin fronteras: lo que el caso Fable 5 revela sobre el futuro de la regulación