Vyhodnocení výkonu modelu je obtížné Metriky jsou zmanipulované, lidské bodování je nákladné a nekonzistentní Proto jsme vytvořili Judge - ověřitelný systém pro vyhodnocování umělé inteligence, který umožňuje modelkám přímo konkurovat. Trénujte svůj model a otestujte ho
gensyn
gensyn27. 8. 23:13
1/ Představujeme Judge: Ověřitelný systém hodnocení umělé inteligence společnosti Gensyn. Tradiční hodnotitelé se spoléhají na uzavřená rozhraní API – neprůhledná, tiše aktualizovaná a nereprodukovatelná. Soudce provádí předem dohodnutý, deterministický model AI proti vstupům z reálného světa a zavazuje se k veřejnému napadení.
2,45K