Openai mengatakan GPT-5 melakukan hal yang lebih rendah-apa yang dikatakan data?

Openai telah secara resmi meluncurkan GPT-5, menjanjikan model AI yang lebih cepat dan lebih mampu untuk memberi daya chatgpt.

Perusahaan AI ini menawarkan kinerja canggih di seluruh matematika, pengkodean, penulisan, dan nasihat kesehatan. Openai dengan bangga berbagi bahwa tingkat halusinasi GPT-5 telah menurun dibandingkan dengan model sebelumnya.

Secara khusus, GPT membuat klaim yang salah 9,6 persen dari waktu, dibandingkan dengan 12,9 persen untuk GPT-4O. Dan menurut kartu sistem GPT-5, tingkat halusinasi model baru 26 persen lebih rendah dari GPT-4O. Selain itu, GPT-5 memiliki respons 44 persen lebih sedikit dengan “setidaknya satu kesalahan faktual utama.”

Sementara itu adalah kemajuan yang pasti, itu juga berarti kira-kira satu dari 10 tanggapan dari GPT-5 dapat mengandung halusinasi. Itu memprihatinkan, terutama karena Openai menggembar -gemborkan perawatan kesehatan sebagai kasus penggunaan yang menjanjikan untuk model baru.

Lihat juga:

Cara mencoba Openai's GPT-5 untuk diri sendiri hari ini


Bagaimana GPT-5 mengurangi halusinasi

Halusinasi adalah masalah sial bagi para peneliti AI. Model bahasa besar (LLM) dilatih untuk menghasilkan kata yang mungkin berikutnya, dipandu oleh sejumlah besar data yang dilatih. Ini berarti LLMS kadang -kadang dapat dengan percaya diri menghasilkan kalimat yang tidak akurat atau omong kosong murni. Orang mungkin berasumsi bahwa ketika model meningkat melalui faktor -faktor seperti data yang lebih baik, pelatihan, dan daya komputasi, laju halusinasi menurun. Tetapi peluncuran model penalaran Openai O3 dan O4-Mini menunjukkan tren yang meresahkan yang tidak dapat sepenuhnya dijelaskan bahkan oleh para peneliti: mereka berhalusinasi lebih dari model sebelumnya, O1, GPT-4O, dan GPT-4.5. Beberapa peneliti berpendapat bahwa halusinasi adalah fitur yang melekat dari LLMS, bukan bug yang dapat diselesaikan.

Kecepatan cahaya yang dapat dipasangkan

Yang mengatakan, GPT-5 berhalusinasi kurang dari model sebelumnya sesuai dengan kartu sistemnya. OpenAI mengevaluasi GPT-5 dan versi GPT-5 dengan kekuatan penalaran tambahan, yang disebut GPT-5-berpikir terhadap model penalaran O3 dan model GPT-4O yang lebih tradisional. Bagian penting dari mengevaluasi tingkat halusinasi adalah memberikan model akses ke web. Secara umum, model lebih akurat ketika mereka dapat sumber jawaban mereka dari data yang akurat secara online dan tidak hanya mengandalkan data pelatihannya (lebih lanjut tentang itu di bawah). Berikut adalah tingkat halusinasi ketika model diberikan akses penapisan web:

Dalam kartu sistem, OpenAI juga mengevaluasi berbagai versi GPT-5 dengan petunjuk yang lebih terbuka dan kompleks. Di sini, GPT-5 dengan daya penalaran berhalusinasi secara signifikan lebih sedikit dari model penalaran sebelumnya O3 dan O4-Mini. Model penalaran dikatakan lebih akurat dan kurang halusinasi karena mereka menerapkan lebih banyak kekuatan komputasi untuk menyelesaikan pertanyaan, itulah sebabnya tingkat halusinasi O3 dan O4-Mini agak membingungkan.

Secara keseluruhan, GPT-5 cukup baik ketika terhubung ke web. Tetapi hasil dari evaluasi lain menceritakan kisah yang berbeda. Openai menguji GPT-5 pada tolok ukur in-house, QA sederhana. Tes ini adalah kumpulan “pertanyaan pencarian fakta dengan jawaban singkat yang mengukur akurasi model untuk jawaban yang dicoba,” sesuai deskripsi kartu sistem. Untuk evaluasi ini, GPT-5 tidak memiliki akses web, dan itu menunjukkan. Dalam tes ini, tingkat halusinasi jauh lebih tinggi.

GPT-5 dengan pemikiran sedikit lebih baik dari O3, sedangkan GPT-5 normal berhalusinasi satu persen lebih tinggi dari O3 dan beberapa poin persentase di bawah GPT-4O. Agar adil, tingkat halusinasi dengan evaluasi QA sederhana tinggi di semua model. Tapi itu bukan penghiburan yang bagus. Pengguna tanpa pencarian web akan menghadapi risiko halusinasi dan ketidakakuratan yang jauh lebih tinggi. Jadi, jika Anda menggunakan chatgpt untuk sesuatu yang sangat penting, pastikan itu mencari web. Atau Anda bisa mencari sendiri web.

Tidak butuh waktu lama bagi pengguna untuk menemukan halusinasi GPT-5

Namun meskipun dilaporkan secara keseluruhan tingkat ketidakakuratan yang lebih rendah, salah satu demo mengungkapkan kesalahan yang memalukan. Beth Barnes, pendiri dan CEO AI Research nirlaba Metr, melihat ketidaktepatan dalam demo GPT-5 yang menjelaskan bagaimana pesawat bekerja. GPT-5 mengutip kesalahpahaman umum terkait dengan efek Bernoulli, kata Barnes, yang menjelaskan bagaimana udara mengalir di sekitar sayap pesawat. Tanpa masuk ke teknis aerodinamika, interpretasi GPT-5 salah.