Ærlig talt kan et panel i Consumer Reports-stil med avanserte brukere være bedre enn METR osv. for å måle AI-fremgang, mye mer robust mot piggete effekter. Ikke ment som skeptisk, men som en avansert bruker synes jeg det har vært svært merkbar fremgang de siste månedene, for ordens skyld.