Kodek som leder veien for CT for å forstå forskjellen mellom VLA-er og LLM-er
CodecFlow
CodecFlow11 timer siden
VLA-er er fortsatt veldig nye, og mange synes det er vanskelig å forstå forskjellen mellom VLA-er og LLM-er. Her er et dypdykk i hvordan disse AI-systemene er forskjellige i resonnement, sensing og handling. Del 1. La oss bryte ned de viktigste forskjellene og hvordan AI-agenter pakket rundt en LLM skiller seg fra operatøragenter som bruker VLA-modeller: 1. Sans: Hvordan de oppfatter verden Agent (LLM): Behandler tekst eller strukturerte data, for eksempel JSON, APIer og noen ganger bilder. Det er som en hjerne som jobber med rene, abstraherte inndata. Tenk å lese en håndbok eller analysere et regneark. Flott for strukturerte miljøer, men begrenset av hva som mates til det. Operator (VLA): Ser rå piksler i sanntid fra kameraer, pluss sensordata (f.eks. berøring, posisjon) og propriosepsjon (selvbevissthet om bevegelse). Det er som å navigere i verden med øyne og sanser, og trives i dynamiske, rotete omgivelser som brukergrensesnitt eller fysiske rom. 2. Handling: Hvordan de samhandler Agent: Fungerer ved å kalle funksjoner, verktøy eller API-er. Tenk deg det som en leder som sender nøyaktige instruksjoner som «bestill en flyreise via Expedia API». Det er bevisst, men er avhengig av forhåndsbygde verktøy og klare grensesnitt. Operatør: Utfører kontinuerlige handlinger på lavt nivå, som å flytte en musepeker, skrive eller kontrollere robotledd. Det er som en dyktig arbeider som direkte manipulerer miljøet, ideelt for oppgaver som krever sanntidspresisjon. 3. Kontroll: Hvordan de tar beslutninger Agent: Følger en langsom, reflekterende sløyfe: planlegg, ring et verktøy, evaluer resultatet, gjenta. Den er tokenbundet (begrenset av tekstbehandling) og nettverksbundet (venter på API-svar). Dette gjør det metodisk, men tregt for sanntidsoppgaver. Operatør: Opererer, tar trinnvise beslutninger i en tett tilbakemeldingssløyfe. Tenk på det som en spiller som reagerer umiddelbart på det som er på skjermen. Denne hastigheten muliggjør væskeinteraksjon, men krever robust sanntidsbehandling. 4. Data å lære: Hva driver opplæringen deres Agent: Opplært på store tekstkorpus, instruksjoner, dokumentasjon eller RAG-datasett (Retrieval-Augmented Generation). Den lærer av bøker, kode eller vanlige spørsmål, og utmerker seg ved å resonnere fremfor strukturert kunnskap. Operatør: Lærer av demonstrasjoner (f.eks. videoer av mennesker som utfører oppgaver), teleoperasjonslogger eller belønningssignaler. Det er som å lære ved å se og øve, perfekt for oppgaver der det er lite eksplisitte instruksjoner. 5. Feilmoduser: Hvor de går i stykker Agent: Utsatt for hallusinasjoner (finne på svar) eller sprø langsiktige planer som faller fra hverandre hvis ett skritt mislykkes. Det er som en strateg som overtenker eller feiltolker situasjonen. Operatør: Står overfor kovariatforskyvning (når treningsdata ikke samsvarer med virkelige forhold) eller sammensatte feil i kontrollen (små feil snøball). Det er som en sjåfør som mister kontrollen på en ukjent vei. 6. Infra: Teknologien bak dem Agent: Er avhengig av en ledetekst/ruter for å bestemme hvilke verktøy som skal kalles, et verktøyregister for tilgjengelige funksjoner og minne/RAG for kontekst. Det er et modulært oppsett, som et kommandosenter som orkestrerer oppgaver. Operatør: Trenger pipeliner for videoinntak, en handlingsserver for sanntidskontroll, et sikkerhetsskjold for å forhindre skadelige handlinger og en repetisjonsbuffer for å lagre opplevelser. Det er et høyytelsessystem bygget for dynamiske miljøer. 7. Hvor hver skinner: Deres søte flekker Agent: Dominerer i arbeidsflyter med rene APIer (f.eks. automatisering av forretningsprosesser), resonnement over dokumenter (f.eks. oppsummering av rapporter) eller kodegenerering. Det er din favoritt for strukturerte oppgaver på høyt nivå. Operatør: Utmerker seg i rotete, API-løse miljøer som å navigere i klønete brukergrensesnitt, kontrollere roboter eller takle spilllignende oppgaver. Hvis det involverer sanntidsinteraksjon med uforutsigbare systemer, er VLA konge. 8. Mental modell: Planlegger + Doer Tenk på LLM-agenten som planleggeren: den deler komplekse oppgaver inn i klare, logiske mål. VLA-operatøren er den som utfører disse målene ved å samhandle direkte med piksler eller fysiske systemer. En kontrollør (et annet system eller agent) overvåker resultatene for å sikre suksess. $CODEC
3,23K