Bra inlägg från @balajis om "verifieringsgapet". Ni kan se det som att det finns två sätt i skapelsen. Låna GAN-terminologi: 1) generering och 2) Diskriminering. T.ex. målning - du gör ett penseldrag (1) och sedan tittar du en stund för att se om du har förbättrat målningen (2). Dessa två steg är insprängda i stort sett allt kreativt arbete. Den andra punkten. Diskriminering kan vara mycket svårt beräkningsmässigt. - Bilder är överlägset enklast. Bildgeneratorteam kan t.ex. skapa gigantiska rutnät av resultat för att avgöra om en bild är bättre än den andra. tack till den gigantiska GPU:n i din hjärna som är byggd för att bearbeta bilder mycket snabbt. - Text är mycket svårare. Det går att skumma, men du måste läsa, det är semantiskt, diskret och exakt så du måste också resonera (särskilt i t.ex. kod). - Ljud är kanske ännu svårare IMO, eftersom det tvingar en tidsaxel så att det inte ens är skimmable. Du tvingas spendera seriell beräkning och kan inte parallellisera den alls. Man kan säga att LLM:er i kodning har kollapsat (1) till ~ omedelbara, men har gjort väldigt lite för att ta itu med (2). En person måste fortfarande stirra på resultaten och avgöra om de är bra. Detta är min största kritik mot LLM-kodning genom att de slentrianmässigt spottar ut * alldeles för mycket kod per fråga vid godtycklig komplexitet, låtsas att det inte finns något steg 2. Att få så mycket kod är dåligt och skrämmande. Istället måste LLM aktivt arbeta med dig för att bryta ner problem i små steg, var och en lättare att verifiera. Den måste förutse beräkningsarbetet i (2) och minska det så mycket som möjligt. Den måste verkligen bry sig. Detta leder mig till förmodligen det största missförståndet som icke-kodare har om kodning. De tror att kodning handlar om att skriva koden (1). Det är det inte. Det handlar om att stirra på koden (2). Ladda in allt i ditt arbetsminne. Vankar fram och tillbaka. Tänker igenom alla gränsfall. Om du kommer på mig vid en slumpmässig tidpunkt medan jag "programmerar" stirrar jag förmodligen bara på skärmen och, om jag blir avbruten, riktigt arg eftersom det är så beräkningsmässigt ansträngande. Om vi bara blir mycket snabbare 1, men vi inte också minskar 2 (vilket är för det mesta!), så är det klart att den totala kodningshastigheten inte kommer att förbättras (se Amdahls lag).
Balaji
Balaji4 juni 2025
AI-UPPMANING → AI-VERIFIERING AI-uppmaningar skalas, eftersom uppmaningar är att bara skriva. Men AI-verifiering skalas inte, eftersom verifiering av AI-utdata innebär mycket mer än att bara skriva. Ibland kan du verifiera med ögat, vilket är anledningen till att AI är bra för frontend, bilder och video. Men för allt subtilt måste du läsa koden eller texten djupt – och det innebär att du måste känna till ämnet tillräckligt väl för att korrigera AI:n. Forskare är väl medvetna om detta, vilket är anledningen till att det finns så mycket arbete om evals och hallucinationer. Begreppet verifiering som flaskhals för AI-användare diskuteras dock för lite. Ja, du kan prova formell verifiering, eller kritisera modeller där en AI kontrollerar en annan, eller andra tekniker. Men att ens vara medveten om problemet som ett första klassens problem är halva striden. För användare: AI-verifiering är lika viktigt som AI-uppmaningar.
449,37K