I vår siste partnerpodcast-episode satte @BenAtBox, CTO i Box, seg ned med @ankrgyl, administrerende direktør i @braintrust, for å utforske hvordan organisasjoner effektivt kan evaluere, teste og implementere AI-agenter i stor skala. Tidsstempler 00:39 Ankur Goyal deler sin reise fra AI-dokumentbehandling til Braintrust 03:01 Definere evalueringer og hvordan de fungerer i AI 07:03 Ikke-determinisme og kompleksitet i AI-agenters beslutningstaking 15:12 Råd om håndtering av ikke-determinisme ved arbeid med finansielle data i AI 17:40 Bruk av flere veier for validering og viktigheten av kryssjekk av resultater 22:12 Den kritiske rollen kontekst har i evaluering av AI-utgangsnøyaktighet 26:03 Interne evalueringer som hjørnesteinen i pålitelig AI-produktutvikling 32:16 Fremme av åpenhet i AI-evaluering med leverandører 34:45 Råd til virksomheter for å unngå feil ved implementering av agentiske kapabiliteter