Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dnes jsme ve @OpenAI dosáhli milníku, který mnozí považovali za roky vzdálený: výkon na úrovni zlaté medaile na IMO 2025 s obecným uvažováním LLM – ve stejných časových limitech jako lidé, bez nástrojů. Jakkoli to zní pozoruhodně, je to ještě významnější než titulek 🧵

19. 7. 2025
1/N S potěšením se s vámi podělím o to, že naše nejnovější @OpenAI experimentální uvažování LLM dosáhlo dlouhodobé velké výzvy v oblasti umělé inteligence: výkonu na úrovni zlaté medaile na nejprestižnější matematické soutěži na světě – Mezinárodní matematické olympiádě (IMO).

U těchto výsledků umělé inteligence, jako je Go/Dota/Poker/Diplomacy, je typické, že výzkumníci tráví roky vytvářením umělé inteligence, která ovládá jednu úzkou oblast a nedělá nic jiného. Nejedná se však o model specifický pro IMO. Je to uvažující LLM, který zahrnuje nové experimentální univerzální techniky.
V čem je tedy rozdíl? Vyvinuli jsme nové techniky, díky nimž jsou LLM mnohem lepší v obtížně ověřitelných úkolech. Problémy IMO byly pro to perfektní výzvou: důkazy jsou dlouhé stránky a odborníci je ohodnotí hodiny. Porovnejte to s AIME, kde jsou odpovědi jednoduše celé číslo od 0 do 999.
Také tento model přemýšlí na *dlouho* dobu. O1 se na pár vteřin zamyslel. Hluboký výzkum po dobu několika minut. Tohle přemýšlí celé hodiny. Důležité je, že je také efektivnější se svým myšlením. A je zde spousta prostoru pro další posun výpočtů a efektivity doby testování.

13. 9. 2024
@OpenAI @rao2z @OpenAI's o1 thinks for seconds, but we aim for future versions to think for hours, days, even weeks. Inference costs will be higher, but what cost would you pay for a new cancer drug? For breakthrough batteries? For a proof of the Riemann Hypothesis? AI can be more than chatbots

Stojí za to zamyslet se nad tím, jak rychlý byl pokrok v oblasti umělé inteligence, zejména v matematice. V roce 2024 používaly laboratoře umělé inteligence matematiku ze základní školy (GSM8K) jako evaluaci ve svých verzích modelů. Od té doby jsme saturovali (středoškolský) MATH benchmark, pak AIME a nyní jsme na IMO zlatě.
Kam to vede? Jakkoli je pokrok v oblasti umělé inteligence v poslední době rychlý, plně očekávám, že tento trend bude pokračovat. Důležité je, že si myslím, že jsme blízko k tomu, aby umělá inteligence významně přispívala k vědeckým objevům. Je velký rozdíl mezi umělou inteligencí mírně pod špičkovým lidským výkonem a mírně nad ním.
This was a small team effort led by @alexwei_. He took a research idea few believed in and used it to achieve a result fewer thought possible. This also wouldn’t be possible without years of research+engineering from many at @OpenAI and the wider AI community.
Když pracujete v hraniční laboratoři, obvykle víte, kde jsou hraniční schopnosti, měsíce před kýmkoli jiným. Tento výsledek je však zcela nový, používá nedávno vyvinuté techniky. Bylo to překvapením i pro mnoho výzkumníků v OpenAI. Dnes každý vidí, kde je hranice.
1,07M
Top
Hodnocení
Oblíbené