Tengo curiosidad por saber dónde fallan los agentes de todos. Las demostraciones no se comparten a menos que sean impresionantes, por lo que hay un sesgo de selección inherente. Los problemas aparecen en la producción real bajo carga. ¿Es el manejo de la memoria contextual? ¿Fiabilidad durante flujos de trabajo largos? Por favor, compartan 🦞