Die Bewertung der Modellleistung ist schwierig Metriken werden manipuliert, menschliche Bewertungen sind kostspielig und inkonsistent Deshalb haben wir Judge entwickelt - ein verifizierbares KI-Bewertungssystem, das es Modellen ermöglicht, direkt gegeneinander anzutreten. Trainiere dein Modell und stelle es auf die Probe.
gensyn
gensyn27. Aug., 23:13
1/ Einführung von Judge: Gensyns verifizierbares KI-Bewertungssystem. Traditionelle Bewerter verlassen sich auf geschlossene APIs - undurchsichtig, stillschweigend aktualisiert und unmöglich zu reproduzieren. Judge führt ein vorab vereinbartes, deterministisches KI-Modell gegen reale Eingaben aus und verpflichtet sich, öffentlich herausgefordert zu werden.
2,4K