متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

Today, we at @OpenAI achieved a milestone that many considered years away: gold medal-level performance on the 2025 IMO with a general reasoning LLM—under the same time limits as humans, without tools. As remarkable as that sounds, it’s even more significant than the headline 🧵

عادة بالنسبة لنتائج الذكاء الاصطناعي هذه ، كما هو الحال في Go / Dota / Poker / Diplomacy ، يقضي الباحثون سنوات في صنع الذكاء الاصطناعي الذي يتقن مجالا ضيقا ولا يفعل شيئا آخر. لكن هذا ليس نموذجا خاصا بالمنظمة البحرية الدولية. إنه ماجستير في المنطق يشتمل على تقنيات تجريبية جديدة للأغراض العامة.

إذن ما هو المختلف؟ لقد طورنا تقنيات جديدة تجعل LLMs أفضل بكثير في المهام التي يصعب التحقق منها. كانت مشاكل المنظمة البحرية الدولية هي التحدي المثالي لهذا: البراهين عبارة عن صفحات طويلة وتستغرق ساعات من الخبراء لتصنيفها. قارن ذلك ب AIME ، حيث تكون الإجابات مجرد عدد صحيح من 0 إلى 999.

كما أن هذا النموذج يفكر لفترة * طويلة *. O1 فكرت لثوان. بحث عميق لدقائق. هذا يفكر لساعات. الأهم من ذلك ، أنها أيضا أكثر كفاءة في تفكيرها. وهناك مجال كبير لدفع حوسبة وقت الاختبار والكفاءة إلى أبعد من ذلك.

يجدر التفكير في مدى سرعة تقدم الذكاء الاصطناعي ، خاصة في الرياضيات. في عام 2024 ، كانت مختبرات الذكاء الاصطناعي تستخدم الرياضيات في المدرسة الابتدائية (GSM8K) كدليل في إصدارات النماذج الخاصة بها. منذ ذلك الحين ، قمنا بإشباع معيار الرياضيات (المدرسة الثانوية) ، ثم AIME ، والآن في IMO Gold.

أين يذهب هذا؟ بالسرعة التي أحرزها الذكاء الاصطناعي مؤخرا ، أتوقع تماما أن يستمر الاتجاه. الأهم من ذلك ، أعتقد أننا قريبون من الذكاء الاصطناعي الذي يساهم بشكل كبير في الاكتشاف العلمي. هناك فرق كبير بين الذكاء الاصطناعي أقل بقليل من الأداء البشري الأعلى مقابل أعلى قليلا.

This was a small team effort led by @alexwei_. He took a research idea few believed in and used it to achieve a result fewer thought possible. This also wouldn’t be possible without years of research+engineering from many at @OpenAI and the wider AI community.

عندما تعمل في مختبر حدودي ، فإنك تعرف عادة أين توجد القدرات الحدودية قبل أي شخص آخر بشهور. لكن هذه النتيجة جديدة تماما ، باستخدام تقنيات مطورة مؤخرا. لقد كانت مفاجأة حتى للعديد من الباحثين في OpenAI. اليوم ، يمكن للجميع رؤية مكان الحدود.

‏‎1.07‏M

الأفضل

المُتصدِّرة

التطبيقات المفضلة

رائج على السلسة

رائج على منصة X

أهم عمليات التمويل الأخيرة

الأبرز