IA Aplicada

    Gemma 4: cómo MoE y QAT permiten correr un modelo de 26B parámetros en 15 GB de RAM

    Gemma 4 redefine la IA local: arquitectura MoE y entrenamiento QAT permiten correr un modelo de razonamiento de élite en una laptop de 16 GB. La RAM, no los parámetros, es la métrica clave.

    PR
    Pablo Rodríguez Brenes
    pablorodriguezb.com · No BS AI · 16 jun 2026 · 6 min de lectura
    Gemma 4: cómo MoE y QAT permiten correr un modelo de 26B parámetros en 15 GB de RAM

    Durante la última década, la potencia de un modelo de lenguaje se midió en parámetros, y correrlo se midió en el precio de la GPU. Gemma 4, la familia de modelos de pesos abiertos de Google, rompe esa correlación con dos técnicas de ingeniería que trasladan la conversación del cómputo hacia la memoria RAM. El resultado tiene consecuencias directas para desarrolladores, pymes y startups que quieren IA privada sin pagar facturas de API impredecibles.

    El problema: el modelo no cabe, pero la nube es cara

    Un modelo de lenguaje grande necesita cargar todos sus pesos en memoria para generar texto. Históricamente eso significaba GPUs de centro de datos con decenas de gigabytes de VRAM, o pagar por cada token a una API en la nube. Para una empresa pequeña, ambas rutas tienen fricción: la primera por costo de hardware, la segunda por costo variable y por la necesidad de enviar datos sensibles a un tercero.

    La familia Gemma 4 ataca ese problema desde el diseño. Sus variantes van desde modelos diminutos para teléfonos (E2B, ~2,3B efectivos; E4B, ~4,5B) hasta un modelo denso de 31B para máxima calidad, pasando por la pieza más interesante para uso profesional: el 26B-A4B, un modelo de tipo Mixture of Experts. Lo que vuelve viable correr estos modelos en hardware accesible no es un único truco, sino la combinación de dos.

    Primera técnica: Mixture of Experts (MoE)

    La arquitectura Mixture of Experts divide la red en muchos sub-modelos especializados —los "expertos"— y usa un enrutador que decide, token por token, cuáles activar. En el caso del Gemma 4 26B-A4B, la "A4B" significa active 4 billion: de sus 26.000 millones de parámetros totales, solo se activan unos 3.800 millones por cada token procesado.

    Concretamente, el modelo organiza su conocimiento en 128 expertos pequeños, de los cuales solo 8 se encienden para cualquier token dado, según el desglose técnico publicado sobre el modelo [2] [3]. La consecuencia es contraintuitiva pero poderosa: el modelo piensa como uno de 26B, pero cuesta computar como uno de menos de 4B.

    Calidad sin pagar el cómputo completo

    Los benchmarks de Google para 2026 muestran que esta eficiencia no sacrifica capacidad. El 26B-A4B alcanza 88,3% en el examen de matemáticas AIME 2026, 77,1% en programación competitiva (LiveCodeBench v6) y 82,3% en ciencia de nivel posgrado (GPQA Diamond) [1] [4]. En el bracket de hardware de 14–16 GB de VRAM, el modelo tiene una ventaja de calidad sustancial en tareas de razonamiento —matemática, código y lógica multi-paso— frente a alternativas densas comparables.

    La diferencia frente a un modelo denso es clave para el presupuesto de inferencia: en un modelo denso de tamaño equivalente, todos los parámetros se activan en cada token. MoE mantiene la memoria ocupada por el modelo completo, pero reduce drásticamente el cómputo por token, lo que se traduce en respuestas más rápidas y menor consumo energético.

    Segunda técnica: Quantization-Aware Training (QAT)

    MoE resuelve el cómputo, pero el modelo todavía debe caber en memoria. Ahí entra la segunda técnica. El 5 de junio de 2026, Google DeepMind liberó checkpoints de Gemma 4 optimizados con Quantization-Aware Training (QAT), una técnica que, en lugar de comprimir el modelo después de entrenarlo, simula la matemática de 4 bits durante el entrenamiento para que el modelo aprenda a tolerar esa precisión reducida [6].

    El efecto sobre la memoria es decisivo: QAT recorta el uso de RAM en aproximadamente 72% conservando una calidad cercana a la original. En la práctica, el checkpoint QAT del 26B-A4B carga en torno a 15 GB en 4 bits, lo que significa que una Mac de 16 GB de memoria unificada o una GPU de 16 GB (como una RTX 4060) pueden ejecutarlo [5] [6].

    La tabla que importa: RAM por variante

    Con cuantización de 4 bits (QAT), los requisitos aproximados de memoria total quedan así [5] [7]:

    VarianteRAM aprox. (4-bit QAT)
    E2B~3 GB
    E4B~5 GB
    12B~7 GB
    26B-A4B~15 GB
    31B~18 GB

    Herramientas como Ollama descargan por defecto la versión INT4 (Q4_K_M), reduciendo el uso de memoria entre 55% y 60%, y gestionan automáticamente el offloading a GPU según el hardware disponible. Incluso es posible correr en CPU sin GPU, aunque entre 5 y 10 veces más lento.

    La regla mental que se desprende para elegir hardware: 8 GB de RAM alcanzan para modelos de 4 a 12B; 16 GB habilitan el 26B-A4B MoE —el "punto dulce" de calidad/costo—; y 32 GB o más dan margen para el 31B denso.

    Qué significa esto para el negocio

    La combinación MoE + QAT desplaza la barrera de entrada a la IA privada de forma medible. Para un equipo de desarrollo o una pyme, las implicaciones son tres.

    Privacidad y cumplimiento: tareas como clasificación de documentos, extracción de datos, resúmenes o borradores de código pueden ejecutarse localmente, sin que la información salga de la máquina. Previsibilidad de costos: el gasto variable de una API se reemplaza por el costo fijo de hardware que, en muchos casos, la empresa ya posee. Accesibilidad: 16 GB de RAM unificada —presentes en laptops de gama media— bastan para un modelo con capacidad de razonamiento competitiva.

    Esto no elimina el rol de las APIs en la nube ni de los modelos frontera; para tareas de máxima complejidad, un orquestador en la nube sigue teniendo sentido. Pero sí cambia el cálculo: una porción creciente del trabajo rutinario de IA puede migrar a local, y el criterio de compra de hardware se vuelve, ante todo, una cuestión de gigabytes de memoria.

    Conclusión

    Gemma 4 condensa una tendencia más amplia de 2026: la eficiencia arquitectónica está democratizando el acceso a modelos potentes. MoE reduce el cómputo activando solo una fracción de los parámetros; QAT reduce la memoria entrenando al modelo para vivir en 4 bits. Juntas, permiten que un modelo con calidad de razonamiento de élite quepa en una laptop de 16 GB. El mensaje para quien planifica infraestructura de IA es directo: dejá de medir los modelos en parámetros y empezá a medirlos en los gigas de RAM que tenés disponibles. Esa es, hoy, la métrica que decide qué IA podés correr —y cuánto te cuesta.


    ¿Te sirvió este desglose? En No BS AI publicamos análisis técnicos sin humo sobre IA aplicada a desarrollo y negocio. Suscribite al newsletter y comentá qué herramienta querés que analicemos a fondo en el próximo episodio.


    Fuentes {#fuentes}

    1. Google AI for Developers. "Gemma 4 model overview". 2026. https://ai.google.dev/gemma/docs/core

    2. Google (Hugging Face). "google/gemma-4-26B-A4B". 2026. https://huggingface.co/google/gemma-4-26B-A4B

    3. Govrani, Pulkit. "Gemma 4 26B A4B: What 'Mixture of Experts' Actually Means for Your Inference Budget". DEV Community. 2026. https://dev.to/pulkitgovrani/gemma-4-26b-a4b-what-mixture-of-experts-actually-means-for-your-inference-budget-13hj

    4. Tang, James. "Benchmarking Gemma-4–26B (A4B) on the DGX Spark". Medium. Mayo 2026. https://medium.com/@james-tang/benchmarking-gemma-4-26b-a4b-on-the-dgx-spark-dc8245292095

    5. Oflight Inc. "Gemma 4 System Requirements — 5–62GB VRAM, RTX 3060 to H100 by Variant (E2B/E4B/26B/31B) [2026 Guide]". 2026. https://www.oflight.co.jp/en/columns/gemma4-hardware-requirements-local-ai-spec-2026

    6. Lushbinary. "Gemma 4 QAT Self-Hosting Guide: Ollama, vLLM". 2026. https://lushbinary.com/blog/gemma-4-qat-self-hosting-guide-ollama-llama-cpp-vllm/

    7. Aurigait. "Gemma 4 by Google: Specs, Benchmarks, Model Sizes, and How to Run It Locally (2026 Guide)". 2026. https://aurigait.com/blog/gemma-4-features-benchmarks-guide/

    8. Labellerr. "Google Gemma 4: A Technical Overview". 2026. https://www.labellerr.com/blog/gemma-4-open-weight-ai-model-overview/

    Sigue leyendo