Microsoft ha lanzado un marco de código abierto llamado ASSERT —acrónimo de Puntuación Adaptativa Impulsada por Especificaciones para Evaluación y Pruebas de Regresión— que permite a los desarrolladores construir pruebas de comportamiento de IA a partir de descripciones escritas en lugar de codificar manualmente cada evaluación. La propuesta es directa: describe cómo debería verse el comportamiento correcto en texto, y el marco genera la lógica de puntuación para verificarlo.
El problema práctico aquí es real. Probar sistemas de IA es más difícil que probar software tradicional porque los resultados no son determinísticos y "correcto" a menudo es un juicio subjetivo. Los equipos típicamente terminan escribiendo scripts de evaluación frágiles y únicos, o confiando en verificaciones manuales puntuales que no escalan. Un enfoque impulsado por especificaciones busca estandarizar cómo defines el comportamiento esperado para que los mismos criterios puedan reutilizarse en diferentes ejecuciones y modelos.
El aspecto de pruebas de regresión es lo que realmente vale la pena considerar. Cuando cambias modelos, ajustas un prompt o actualizas una dependencia, el comportamiento puede desviarse silenciosamente. Un marco que convierte especificaciones en puntuación repetible te permite ejecutar el mismo conjunto de verificaciones y detectar regresiones antes de que lleguen a producción —similar a cómo las pruebas unitarias protegen una base de código, pero aplicado al comportamiento del modelo.
Para los desarrolladores, el siguiente paso inmediato es evaluar ASSERT contra lo que estés usando actualmente, ya sean evaluaciones personalizadas, configuraciones de LLM-como-juez, o librerías como promptfoo y DeepEval. Dado que es código abierto, puedes inspeccionar cómo convierte especificaciones de texto en puntuaciones, lo que importa: la credibilidad de cualquier marco de evaluación descansa en si su puntuación realmente refleja el comportamiento que te importa, no solo coincidencias superficiales.
Comienza en pequeño. Elige un flujo de trabajo donde ya sientas incertidumbre sobre la calidad —digamos una tarea de resumen o extracción— escribe la especificación de comportamiento en lenguaje natural, y observa cómo se desempeñan las pruebas generadas contra resultados conocidos buenos y malos. Esto te da una lectura concreta sobre si la puntuación adaptativa se sostiene antes de integrarla en tu pipeline de CI.