Tôi tự hỏi điều gì sẽ xảy ra nếu bạn nhân bản nghiên cứu nâng cao METR AI, nhưng cho những công cụ bình thường hơn. Ví dụ, hoàn thành yêu cầu kéo này, nhưng không được phép truy cập internet. Sẽ không ngạc nhiên nếu năng suất được cải thiện (giống như đã xảy ra mà không có LLMs) Nếu vậy, có thể nghiên cứu này nói nhiều hơn về việc dễ dàng bị phân tâm (và cách mà miễn là bạn có bất kỳ lựa chọn nào khác, bạn sẽ từ chối dành nỗ lực nhận thức vào vấn đề cốt lõi) hơn là về các trợ lý lập trình LLM cụ thể.