Buenas Prácticas

    Cómo evaluar la calidad de un LLM en tu producto

    De los 'se siente bien' a métricas que puedes defender. Diseñar evaluaciones que reflejan tu caso real, no un benchmark genérico.

    DS
    Diego Salas
    AI Solutions Architect · 28 may 2026 · 1 min de lectura

    "Se siente mejor" no es una métrica. Si vas a poner un modelo frente a tus usuarios, necesitas una forma repetible de saber si una versión es mejor que otra. Eso es evaluación.

    Construye un set de casos reales

    Toma ejemplos de tu producto —no de un benchmark público— y define el resultado esperado para cada uno. Veinte casos bien elegidos valen más que mil sintéticos.

    Elige cómo puntuar

    • Exactitud cuando hay una respuesta correcta.
    • Rúbricas cuando la calidad es matizada (tono, completitud, formato).
    • Comparación A/B cuando solo necesitas saber cuál versión gana.

    Automatiza y versiona

    Trata las evaluaciones como pruebas: corren en cada cambio de prompt o modelo, y guardas el histórico. Así el "mejoró" deja de ser una sensación y pasa a ser un número que puedes defender ante tu equipo y tu cliente.

    Sigue leyendo