Nel nostro ultimo episodio del podcast con i partner, @BenAtBox, CTO di Box, ha parlato con @ankrgyl, CEO di @braintrust, per esplorare come le organizzazioni possano valutare, testare e implementare efficacemente gli agenti AI su larga scala. Timestamp 00:39 Ankur Goyal condivide il suo percorso dall'elaborazione di documenti AI a Braintrust 03:01 Definizione di eval e come funzionano nell'AI 07:03 Non-determinismo e complessità nel processo decisionale degli agenti AI 15:12 Consigli su come gestire il non-determinismo quando si lavora con dati finanziari nell'AI 17:40 Utilizzare più percorsi per la validazione e l'importanza di controllare i risultati 22:12 Il ruolo critico del contesto nella valutazione dell'accuratezza dell'output dell'AI 26:03 Evals interni come pietra miliare dello sviluppo affidabile dei prodotti AI 32:16 Promuovere la trasparenza nella valutazione dell'AI con i fornitori 34:45 Consigli per le imprese per evitare fallimenti nell'implementazione delle capacità agentiche