Giới thiệu Husky Hold’em Bench, eval pokerbots OS đầu tiên!
Chúng tôi đã thấy nhiều công việc tuyệt vời trong OS gần đây về việc đánh giá LLMs trong trò chơi chiến lược.
Đây là một cái khác với một chút khác biệt: mô hình không được chọn hành động của mình trực tiếp mà phải thực hiện chính sách của nó bằng python dưới các ràng buộc về thời gian và bộ nhớ, điều này loại trừ các phương pháp brute force và bảng tra cứu.
Sau đó, chúng tôi cho các bot đấu với nhau trong một định dạng vòng tròn 6 người với tất cả các kết hợp. Một số mô hình lý luận hàng đầu hoạt động như thế nào?
Giới thiệu Husky Hold’em Bench, eval pokerbots OS đầu tiên!
Chúng tôi đã thấy nhiều công việc tuyệt vời trong OS gần đây về việc đánh giá LLMs trong trò chơi chiến lược.
Đây là một cái khác với một chút khác biệt: mô hình không được chọn hành động của mình trực tiếp mà thay vào đó phải thực hiện chính sách của mình bằng python dưới các ràng buộc về thời gian và bộ nhớ mà loại trừ các phương pháp brute force và bảng tra cứu.
Sau đó, chúng tôi cho các bot đấu với nhau trong một định dạng vòng tròn 6 người với tất cả các kết hợp. Một số mô hình lý luận hàng đầu hoạt động như thế nào?
Hermes-4-14B đã được phát hành!
Mô hình LLM nhỏ gọn nhất của chúng tôi trong dòng Hermes 4 có thể sử dụng tại chỗ và được tối ưu hóa cho phần cứng tiêu dùng, cung cấp quyền truy cập tại nhà vào khả năng suy luận mạnh mẽ và gọi công cụ của nó.
Mô hình hiện đã có sẵn trên Nous Chat để sử dụng trực tuyến và có thể tải xuống trên HuggingFace.