Tutkimusharjoittelijamme esittävät: Kevin-32B = K(ernel D)evin Se on ensimmäinen avoin malli, joka on koulutettu RL:n avulla CUDA-ytimien kirjoittamiseen. Toteutimme usean kierroksen RL:n käyttämällä GRPO:ta (perustuu QwQ-32B:hen) KernelBench-tietojoukkoon. Se päihittää huippupäättelymallit (o3 ja o4-mini)! 🧵
316,4K