Trillion Labs, un startup coreean de inteligență artificială, a lansat Tri-21B-think Preview, un model mic de raționament cu greutăți deschise care obține un scor de 20 în Artificial Analysis Intelligence Index Concluzii cheie de benchmarking: ➤ Inteligență ridicată, dar nu de top pentru dimensiunea sa mică: Tri-21B-think Preview scorează foarte bine pentru dimensiunea sa relativ mică de 21 miliarde de parametri. Modelul fiind doar 21B îl face relativ mai accesibil pentru auto-găzduire comparativ cu modelele open source de top precum GLM-5 și Kimi K2.5 ➤ Rată scăzută de halucinații: Tri-21B-think Preview obține -49 la AA-Omniscience Index, un benchmark proprietar de analiză artificială care măsoară fiabilitatea cunoașterii și halucinațiile în diverse industrii. Acest scor bun este determinat în principal de o rată relativ scăzută a halucinațiilor (62%), care este cea mai scăzută dintre modelele sud-coreene pe care le comparăm. ➤ Puterea utilizării uneltelor agentice: Tri-21B-think Preview scorează 93% pe τ²-Bench Telecom, demonstrând performanțe puternice în fluxurile de lucru de utilizare a uneltelor agențice. Previzualizare Tri-21B-think printre modelele de frontieră open weight din această categorie, obținând scoruri similare cu DeepSeek V3.2 și MiniMax M2.5 în această categorie ➤ Utilizare ridicată a token-urilor: Tri-21B-think Preview demonstrează o utilizare foarte ridicată a token-urilor comparativ cu alte modele din același nivel de inteligență, folosind tokenuri de raționament ~120M în întreaga suită de Inteligență în Analiză Artificială. Aceasta este comparabilă cu K-EXAONE (tokenuri de raționament 100M), un alt model coreean ➤ Fără endpoint-uri publice: Tri-21B-think Preview este un model open weights sub licență Apache 2.0. În prezent, singura modalitate de a accesa modelul este prin auto-găzduire. Trillion Labs a anunțat că se așteaptă ca un endpoint dedicat, de primă parte, să fie servit în viitorul apropiat. Vezi mai jos pentru analize suplimentare
Tri-21B-think Preview obține un scor de 93% la τ²-Bench Telecom, demonstrând performanță puternică în fluxurile de lucru de utilizare a uneltelor agențice.
Tri-21B-think Preview demonstrează o utilizare foarte ridicată a tokenurilor, folosind tokenuri de raționament de ~120M în întreaga suită de Inteligență în Analiză Artificială.
9,08K