Tenho curiosidade sobre onde os agentes de cada um falham. Demos não são compartilhadas a menos que sejam impressionantes, então há um viés inerente de seleção. Problemas aparecem na produção real sob carga. É o manejo da memória contextual? Confiabilidade durante fluxos de trabalho longos? Por favor, compartilhe 🦞