Cada semana hay un nuevo "marco de agente de IA". Muy pocos están preguntando: "¿Cómo probamos lo que realmente hizo este sistema?" Eso se va a convertir en un problema de primer orden.