بصراحة، قد تكون لوحة المستخدمين المحترفين على غرار Consumer Reports أفضل من METR وغيرها لقياس تقدم الذكاء الاصطناعي، وأكثر تحدا للتقلبات الحساسة. لا أقصد أن أبدو متشككا، كمستخدم محترف أعتقد أن هناك تقدما ملحوظا جدا خلال الأشهر القليلة الماضية، للمعلومية.