Trillion Labs, koreański startup AI, uruchomił Tri-21B-think Preview, mały model rozumowania z otwartymi wagami, który uzyskuje 20 punktów w Indeksie Sztucznej Analizy Inteligencji Kluczowe wnioski z benchmarków: ➤ Wysoka, ale nie wiodąca inteligencja jak na swój mały rozmiar: Tri-21B-think Preview uzyskuje wysokie wyniki jak na stosunkowo mały rozmiar 21 miliardów parametrów. Model o rozmiarze 21B jest stosunkowo bardziej dostępny do samodzielnego hostowania w porównaniu do wiodących modeli open source, takich jak GLM-5 i Kimi K2.5. ➤ Niska stopa halucynacji: Tri-21B-think Preview uzyskuje -49 w Indeksie AA-Omniscience, własnym benchmarku Sztucznej Analizy, który mierzy niezawodność wiedzy i halucynacje w różnych branżach. Ten dobry wynik jest głównie wynikiem stosunkowo niskiej stopy halucynacji (62%), co jest najniższym wynikiem wśród modeli z Korei Południowej, które benchmarkowaliśmy. ➤ Siła w użyciu narzędzi agentowych: Tri-21B-think Preview uzyskuje 93% w τ²-Bench Telecom, demonstrując silne wyniki w przepływach pracy związanych z użyciem narzędzi agentowych. Tri-21B-think Preview znajduje się w czołówce modeli z otwartymi wagami w tej kategorii, uzyskując podobne wyniki do DeepSeek V3.2 i MiniMax M2.5 w tej kategorii. ➤ Wysokie zużycie tokenów: Tri-21B-think Preview wykazuje bardzo wysokie zużycie tokenów w porównaniu do innych modeli w tej samej klasie inteligencji, używając ~120M tokenów rozumowania w suite Sztucznej Analizy Inteligencji. To porównywalne z K-EXAONE (100M tokenów rozumowania), innym modelem z Korei. ➤ Brak publicznych punktów końcowych: Tri-21B-think Preview to model z otwartymi wagami na licencji Apache 2.0. Obecnie jedynym sposobem na dostęp do modelu jest samodzielne hostowanie. Trillion Labs poinformował, że wkrótce oczekiwany jest dedykowany punkt końcowy pierwszej strony.
Tri-21B-think Preview uzyskuje 93% w teście τ²-Bench Telecom, co pokazuje silną wydajność w zakresie użycia narzędzi agentowych.
Podgląd Tri-21B-think demonstruje bardzo wysokie zużycie tokenów, wykorzystując ~120M tokenów rozumowania w ramach zestawu sztucznej analizy inteligencji.
9,08K