Hari ini, kami di @OpenAI mencapai tonggak sejarah yang dianggap banyak orang bertahun-tahun lagi: kinerja tingkat medali emas di IMO 2025 dengan LLM penalaran umum—di bawah batas waktu yang sama dengan manusia, tanpa alat. Meskipun kedengarannya luar biasa, itu bahkan lebih signifikan daripada judul utama 🧵
Alexander Wei
Alexander Wei19 Jul 2025
1/N Saya senang berbagi bahwa penalaran @OpenAI eksperimental terbaru kami LLM telah mencapai tantangan besar yang sudah lama ada di AI: kinerja tingkat medali emas pada kompetisi matematika paling bergengsi di dunia—Olimpiade Matematika Internasional (IMO).
Biasanya untuk hasil AI ini, seperti di Go/Dota/Poker/Diplomacy, para peneliti menghabiskan waktu bertahun-tahun untuk membuat AI yang menguasai satu domain sempit dan tidak melakukan banyak hal lain. Tapi ini bukan model khusus IMO. Ini adalah penalaran LLM yang menggabungkan teknik tujuan umum eksperimental baru.
Jadi apa bedanya? Kami mengembangkan teknik baru yang membuat LLM jauh lebih baik dalam tugas-tugas yang sulit diverifikasi. Masalah IMO adalah tantangan sempurna untuk ini: bukti panjangnya halaman dan membutuhkan waktu berjam-jam untuk menilai. Bandingkan dengan AIME, di mana jawaban hanyalah bilangan bulat dari 0 hingga 999.
Juga model ini berpikir untuk waktu yang *lama*. o1 berpikir selama beberapa detik. Penelitian mendalam selama beberapa menit. Yang ini berpikir selama berjam-jam. Yang penting, itu juga lebih efisien dengan pemikirannya. Dan ada banyak ruang untuk mendorong komputasi dan efisiensi waktu pengujian lebih jauh.
Noam Brown
Noam Brown13 Sep 2024
@OpenAI @rao2z @OpenAI's o1 thinks for seconds, but we aim for future versions to think for hours, days, even weeks. Inference costs will be higher, but what cost would you pay for a new cancer drug? For breakthrough batteries? For a proof of the Riemann Hypothesis? AI can be more than chatbots
Ada baiknya merenungkan seberapa cepat kemajuan AI, terutama dalam matematika. Pada tahun 2024, laboratorium AI menggunakan matematika sekolah dasar (GSM8K) sebagai evaluasi dalam rilis model mereka. Sejak itu, kami telah memenuhi tolok ukur matematika (sekolah menengah), kemudian AIME, dan sekarang berada di emas IMO.
Ke mana perginya ini? Secepat kemajuan AI baru-baru ini, saya sepenuhnya berharap tren ini akan berlanjut. Yang penting, saya pikir kita dekat dengan AI yang secara substansial berkontribusi pada penemuan ilmiah. Ada perbedaan besar antara AI yang sedikit di bawah kinerja manusia teratas vs sedikit di atas.
This was a small team effort led by @alexwei_. He took a research idea few believed in and used it to achieve a result fewer thought possible. This also wouldn’t be possible without years of research+engineering from many at @OpenAI and the wider AI community.
Ketika Anda bekerja di laboratorium perbatasan, Anda biasanya tahu di mana kemampuan perbatasan berbulan-bulan sebelum orang lain. Tapi hasil ini benar-benar baru, menggunakan teknik yang baru dikembangkan. Itu adalah kejutan bahkan bagi banyak peneliti di OpenAI. Hari ini, semua orang bisa melihat di mana perbatasannya.
1,07M