Openai mengumumkan model penalaran yang belum dirilis memenangkan emas di Olympiad Matematika Internasional (IMO), memicu drama sengit di dunia matematika kompetitif.
Sementara sebagian besar siswa sekolah menengah menikmati istirahat dari sekolah dan pekerjaan rumah, siswa matematika terkemuka dari seluruh dunia membawa A-game mereka ke IMO, dianggap sebagai kompetisi matematika paling bergengsi. AI Labs juga bersaing dengan LLM mereka, dan model yang belum dirilis dari Openai mencapai skor yang cukup tinggi untuk mendapatkan medali emas, menurut peneliti Alexander Wei yang berbagi berita di X.
Tweet ini saat ini tidak tersedia. Mungkin dimuat atau telah dilepas.
Model Openai mendapatkan lima masalah dengan benar, mendapatkan skor medali emas sebesar 35 dari 42 poin. “Untuk setiap masalah, tiga mantan peraih medali IMO secara independen menilai bukti yang diajukan model, dengan skor diselesaikan setelah konsensus bulat,” menurut Wei. Masalahnya adalah tantangan aljabar dan pra-kalkulus yang membutuhkan pemikiran kreatif di pihak pesaing. Jadi bagi LLM untuk dapat bernalar melalui bukti yang panjang dan kompleks adalah pencapaian yang mengesankan.
Namun, waktu pengumuman sedang dikritik karena menaungi hasil pesaing manusia. IMO dilaporkan meminta laboratorium AI secara resmi bekerja dengan organisasi yang memverifikasi hasil untuk menunggu seminggu sebelum membuat pengumuman, untuk menghindari mencuri guntur anak -anak. Itu menurut posting x dari Mikhail Samin, yang menjalankan nirlaba Tata Kelola dan Keselamatan AI. Openai mengatakan mereka tidak secara resmi bekerja sama dengan IMO untuk memverifikasi hasil mereka dan sebaliknya bekerja dengan ahli matematika individu untuk secara mandiri memverifikasi skornya, dan karenanya tidak terikat pada segala jenis perjanjian. Mashable mengirim pesan langsung ke Samin di X untuk memberikan komentar.
Tetapi gosipnya adalah bahwa penyelenggara yang digosok ini dengan cara yang salah, yang mengira itu “kasar” dan “tidak pantas” untuk Openai melakukan ini. Ini semua desas-desus, berdasarkan rumor dari Samin, yang juga memposting tangkapan layar komentar serupa dari seseorang bernama Joseph Myers, mungkin peraih medali emas IMO dua kali. Mashable menghubungi Myers untuk memberikan komentar, tetapi dia belum secara terbuka mengkonfirmasi keaslian tangkapan layar.
Kecepatan cahaya yang dapat dipasangkan
Tweet ini saat ini tidak tersedia. Mungkin dimuat atau telah dilepas.
Sebagai tanggapan, peneliti Openai Noam Brown mengatakan mereka memposting hasilnya setelah upacara penutupan IMO, menghormati permintaan penyelenggara IMO.
Dalam posting tindak lanjut, Brown mengklarifikasi bahwa IMO menjangkau OpenAi dua bulan sebelumnya karena berpartisipasi dalam versi yang berbeda dari tes yang disebut Lean. Openai menolak, karena mereka “fokus pada penalaran umum dalam bahasa alami tanpa kendala lean,” dan Brown mengatakan mereka “tidak pernah didekati tentang pilihan matematika bahasa alami.”
Tweet ini saat ini tidak tersedia. Mungkin dimuat atau telah dilepas.
Sementara itu, Google DeepMind dilaporkan telah melakukan bekerja sama dengan IMO, dan mengumumkan sore ini bahwa “versi canggih Gemini dengan Deep Thought secara resmi[d] Standar medali emas di Olimpiade Matematika Internasional. “Menurut pengumuman itu, model DeepMind” secara resmi dinilai dan disertifikasi oleh koordinator IMO menggunakan kriteria yang sama seperti untuk solusi siswa. “Bacalah ke dalam pernyataan itu atau sesedikit yang Anda inginkan, tetapi waktunya hampir tidak bersamaan.
Tweet ini saat ini tidak tersedia. Mungkin dimuat atau telah dilepas.
Orang lain dapat mengikuti Ibu Rumah Tangga Nyatatetapi kesopanan yang tepat dari kompetisi matematika elit adalah drama tinggi yang kita jalani.
UPDATE: 22 Jul, 2025, 11:28 EDT Kisah ini telah diperbarui dengan informasi tambahan dari pernyataan oleh peneliti Openai Noam Brown.
Pengungkapan: Ziff Davis, perusahaan induk Mashable, pada bulan April mengajukan gugatan terhadap Openai, menuduhnya melanggar hak cipta Ziff Davis dalam pelatihan dan mengoperasikan sistem AI -nya.