Ärligt talat kan en panel i Consumer Reports-stil med avancerade användare vara bättre än METR osv. för att mäta AI-framsteg, mycket mer robust mot taggighet. Jag är inte menad att låta skeptisk, men som avancerad användare tycker jag att det har skett mycket märkbara framsteg de senaste månaderna, för vad det är värt.