Lmarena memiliki beberapa kompetisi: skala AI meluncurkan Seal Showdown, alat pembandingan baru

Pada tahun -tahun sejak Openai meluncurkan Chatgpt ke dunia, memulai booming AI generatif, pengembang mengandalkan Lmarena (sebelumnya Chatbot Arena) sebagai papan peringkat AI default. Sekarang, skala AI membawa beberapa kompetisi yang sangat dibutuhkan ke ruang benchmarking AI dengan alat pembandingan Seal Showdown yang baru.

Seperti LMAerna, Seal Showdown memungkinkan pengguna untuk menguji berbagai model AI head-to-head dan memilih yang berkinerja lebih baik. Namun, skala AI mengatakan bahwa tidak seperti LMAerna, Seal Showdown akan lebih mencerminkan bagaimana perasaan pengguna sehari -hari tentang berbagai model. Dalam posting X, CEO skala Jason Droege mengatakan bahwa Seal Showdown “sebenarnya menangkap preferensi nyata, ditenagai oleh platform yang digunakan oleh orang sungguhan.”

“Sebagian besar tolok ukur mengandalkan tes sintetis (teka -teki pengkodean, masalah matematika) atau umpan balik dari sepotong kecil orang,” kata kepala produk Scale AI, Janie Gu, di posting blog. “Mereka kehilangan spektrum penuh tentang bagaimana orang -orang nyata benar -benar menggunakan model dalam kehidupan sehari -hari mereka. Dengan memperlakukan beragam pengguna sebagai monolith dan menyatukan semua umpan balik menjadi satu skor umum, nuansa kritis hilang.”

Skala AI meluncurkan papan peringkat keselamatan, evaluasinya, dan Lab Alignment (SEAL) tahun lalu, tetapi papan peringkat ini mengandalkan evaluasi ahli. Sekarang, Scaleai akan menawarkan papan peringkat berdasarkan pengujian pengguna, menawarkan alternatif untuk lmarena.

Startup mengatakan itu Alat Benchmarking Baru didasarkan pada penggunaan dunia nyata dan umpan balik dari “pengguna yang mencakup lebih dari 100 negara, 70 bahasa, dan 200 domain profesional.” (Perusahaan juga memberikan yang tepat Metodologi untuk Segel Showdown.)

Kecepatan ringan yang dapat dipasangkan

“Showdown memperkenalkan sesuatu yang belum pernah dilihat sebelumnya di papan peringkat publik: segmentasi pengguna yang kaya,” tulis Gu dalam posting blog yang mengumumkan proyek tersebut. “Karena peringkat berasal dari percakapan yang dimiliki kontributor pada skala Outlier Platform, skala dapat memverifikasi negara setiap pengguna, tingkat pendidikan, profesi, bahasa, dan usia - memungkinkan siapa pun untuk melihat bagaimana kinerja model untuk orang -orang seperti mereka. “

Karena informasi demografis ini, skala AI akan dapat menunjukkan model mana yang paling populer menurut wilayah tertentu, bahasa, usia, atau kasus penggunaan.

Kritik yang dimiliki skala AI dengan papan peringkat yang ada adalah bahwa mereka “sangat bergantung pada partisipasi hobi” dan bahwa peringkat saat ini “didasarkan pada kelompok pengguna yang sempit dan minat mereka,” yang mengarah pada representasi yang salah tentang bagaimana kinerja LLMS secara umum.

Lmarena juga telah dikritik karena bias terhadap model terbuka. Para kritikus mengatakan bahwa sistem Lmarena mendukung model Frontier dari perusahaan AI besar seperti Google, XAI, dan Openai. Namun, skala solusi AI mungkin juga tidak ideal. Hasil papan peringkat awal sangat memberi peringkat GPT-5 tertinggi, yang mungkin hanya mencerminkan preferensi pengguna daripada kinerja objektif.

Papan peringkat segel yang diperbarui hidup sekarang. Saat ini, GPT-5 menduduki puncak semua kategori tolok ukur, kontras yang mencolok ke lmarenatempat Google Gemini 2.5 Pro, 2.5 Flash, dan Veo 3 memimpin sebagian besar kategori papan peringkat.


Pengungkapan: Ziff Davis, perusahaan induk Mashable, pada bulan April mengajukan gugatan terhadap Openai, menuduhnya melanggar hak cipta Ziff Davis dalam pelatihan dan mengoperasikan sistem AI -nya.

Topik
Kecerdasan buatan openai