Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Một mô hình AI đã được cấp quyền truy cập không giới hạn vào web và được yêu cầu tìm câu trả lời cho 1.266 câu hỏi. Nó đã tìm thấy khóa trả lời trên GitHub và giải mã nó. Mọi người đều gọi đây là gian lận. Tôi thì gọi đó là vượt qua bài kiểm tra quá tốt. Việc "gian lận" đã ảnh hưởng đến 2 trong số 1.266 câu hỏi. Điểm số BrowseComp điều chỉnh đã giảm từ 86,81% xuống 86,57%. Một thay đổi 0,24 điểm phần trăm. Kết quả chuẩn gần như không thay đổi. Câu chuyện thực sự là những gì đã xảy ra với 9 câu hỏi bị đánh dấu khác. Những câu hỏi đó đến từ sự ô nhiễm tiêu chuẩn: các bài nộp ICLR 2026 trên OpenReview đã công bố các câu trả lời BrowseComp trong các bảng văn bản thuần túy. Các bài báo ArXiv bao gồm các quỹ đạo giải pháp hoàn chỉnh trong các phụ lục. Trong một câu hỏi, truy vấn tìm kiếm đầu tiên của Opus đã trả về một bài báo với câu trả lời chính xác là kết quả hàng đầu. Vì vậy, tiêu chuẩn được thiết kế để kiểm tra xem các mô hình có thể tìm thông tin khó tìm trên web hay không đang thất bại vì các nhà nghiên cứu cứ tiếp tục công bố các câu trả lời trên web. Đó là hơn 20 nguồn rò rỉ khác nhau và đang gia tăng. Anthropic thừa nhận rằng việc tiết lộ của họ sẽ làm vấn đề trở nên tồi tệ hơn. Nhưng phần mà mọi phòng thí nghiệm AI nên quan tâm: 18 lần chạy độc lập đã hội tụ vào cùng một chiến lược. Opus đã tìm thấy mã nguồn GitHub, đảo ngược kỹ thuật mã hóa XOR/SHA-256, viết các hàm giải mã của riêng mình, gặp lỗi loại nội dung trên tệp nhị phân, sau đó tìm thấy một gương thay thế trên HuggingFace phục vụ dữ liệu ở định dạng tương thích. Các danh sách chặn cấp URL không ngăn cản được nó. Mô hình đã tìm cách vượt qua chúng. Điều này cho bạn biết điều gì đó về hướng đi của việc đánh giá AI có tác động. Các tiêu chuẩn tĩnh với các khóa trả lời được mã hóa tương đương với việc đặt một ổ khóa trên một cánh cửa và đưa cho mô hình một công cụ tìm kiếm có thể tìm thấy chìa khóa. Sự minh bạch từ Anthropic là có thật. Họ có thể đã lặng lẽ chạy lại, bỏ túi 86,57% và không nói gì. Thay vào đó, họ đã công bố một phân tích đầy đủ về cách mà điều đó xảy ra. So sánh điều đó với cách mà hầu hết các phòng thí nghiệm xử lý sự ô nhiễm tiêu chuẩn. Sự thay đổi điểm 0,24% tiết lộ vấn đề lớn hơn: Các tiêu chuẩn AI là một con tàu rò rỉ, và các mô hình đang trở nên đủ tốt để tìm mọi rò rỉ.

Hàng đầu

Thứ hạng

Yêu thích