Jeg har nettopp presset mitt første RL-miljø med flere svinger til @PrimeIntellect oppsettet: modellen henter historiens tittel + spørsmål fra QuALITY (lange historier, flervalgsspørsmål). tts eneste verktøy: agentisk RAG-søk over historien.
9,96K