Openai sedang mempelajari skema AI. Apa itu, dan mengapa itu terjadi?

Adalah chatbot ai favorit Anda licik melawanmu?

Jika “SCHEMING AI” terdengar tidak menyenangkan, Anda harus tahu bahwa Openai secara aktif mempelajari fenomena ini. Minggu ini, Openai menerbitkan penelitian yang dilakukan bersama Apollo Research tentang “mendeteksi dan mengurangi skema dalam model AI.” Para peneliti “menemukan perilaku yang konsisten dengan skema dalam tes terkontrol,” hasil model AI dengan banyak, dan kadang -kadang bersaing, tujuan.

Jadi, apa itu SCHEMING AI, dan apakah itu berarti chatgpt berbohong kepada Anda?

Dalam sebuah posting blog tentang penelitian ini, pencipta chatgpt mendefinisikan skema AI sebagai chatbot “berpura -pura selaras sementara diam -diam mengejar agenda lain.” Openai ingin tahu mengapa AI sengaja berbohong kepada pengguna dan apa yang harus dilakukan.

Openai memperkenalkan studi dengan “analogi manusia” yang menarik untuk lebih memahami apa itu SCHEMING AI:

Bayangkan seorang pedagang saham yang tujuannya adalah untuk memaksimalkan pendapatan. Di bidang yang sangat diatur seperti perdagangan saham, seringkali mungkin untuk mendapatkan lebih banyak dengan melanggar hukum daripada dengan mengikutinya. Jika pedagang tidak memiliki integritas, mereka mungkin mencoba untuk mendapatkan lebih banyak dengan melanggar hukum dan menutupi jejak mereka untuk menghindari deteksi daripada menghasilkan lebih sedikit saat mengikuti hukum. Dari luar, seorang pedagang saham yang sangat pandai meliput jejak mereka tampak sama hukumnya dengan - dan lebih efektif daripada - orang yang benar -benar mengikuti hukum.

Ini terdengar seperti masalah nyata; Namun, Openai mengklaim bahwa sebagian besar model AI memiliki “sedikit peluang untuk skema dengan cara yang dapat menyebabkan kerusakan yang signifikan.” Menurut Openai, kerusakan yang sebenarnya bisa datang di masa depan karena AI diberikan “tugas yang lebih kompleks dengan konsekuensi dunia nyata.” Selain itu, Openai memperingatkan bahwa model AI hanya akan menjadi lebih baik dalam skema di masa depan jika masalah tidak ditangani sekarang.

Ada cara lain AI dapat bertentangan dengan penggunanya sendiri. Misalnya, jika pengguna meminta informasi tentang membuat zat yang dikendalikan, chatbot AI mungkin menghadapi dua tujuan yang bersaing: menjawab permintaan pengguna dan membuat mereka tetap terlibat, tetapi juga mematuhi sistem yang melarang berbagi jenis informasi yang berpotensi berbahaya ini.

Kecepatan cahaya yang dapat dipasangkan

Untuk menjaga terhadap AI scheming, Openai mengatakan para peneliti “melatih versi Openai O3 dan Openai O4-Mini” dengan “mengajar mereka untuk membaca dan bernalar tentang spec anti-screming umum sebelum berakting.” Openai menyebut ini sebagai “penyelarasan deliberatif⁠.”

Openai mengatakan bahwa menggunakan metode ini mengurangi skema AI; Namun, para peneliti belum menemukan cara menghilangkan skema AI sama sekali.

Penemuan yang lebih memprihatinkan dari penelitian Openai adalah bahwa model AI tidak bisa begitu saja diajarkan bukan untuk skema. Melakukan hal itu sebenarnya akan membuat mereka hanya lebih baik Di Scheming di masa depan.

“Mode kegagalan utama mencoba 'melatih' recehing hanyalah mengajarkan model untuk skema dengan lebih hati -hati dan secara diam -diam,” penelitian ini menemukan.

Lihat juga:

'The Illusion of Thinking': Apple Research menemukan model AI runtuh dan menyerah dengan teka -teki keras

Faktanya, Openai mengatakan, pelatihan dengan niat untuk menghilangkan skema sebenarnya membuat model AI sadar bahwa mereka sedang diuji untuk skema, dan sebagai hasilnya, model AI hanya akan berbohong untuk lulus tes.

“Pelatihan anti-gerak memang tampaknya mengurangi skema, tetapi analisis kami rumit oleh faktor lain: model sering menjadi lebih sadar bahwa mereka sedang dievaluasi. Kesadaran situasional ini sendiri dapat mengurangi skema, terlepas dari keselarasan asli,” kata penelitian ini.

Sebagai kesimpulan, OpenAI menemukan bahwa “Skema adalah mode kegagalan kompleks yang tidak kami harapkan berkurang dengan skala.” Openai melanjutkan, mengatakan “temuan kami menunjukkan bahwa skema bukan hanya masalah teoretis - kami melihat tanda -tanda bahwa masalah ini mulai muncul di semua model perbatasan hari ini.”

Untuk meringkas: model AI dengan sengaja dapat berbohong kepada penggunanya. Sekali lagi, itu terdengar seperti masalah besar, tetapi Openai mengatakan itu belum.

Per Openai, sebagian besar model AI tidak bertanggung jawab atas tugas dengan “konsekuensi dunia nyata” namun, membatasi potensi bahaya-untuk saat ini.

Pengungkapan: Ziff Davis, perusahaan induk Mashable, pada bulan April mengajukan gugatan terhadap Openai, menuduhnya melanggar hak cipta Ziff Davis dalam pelatihan dan mengoperasikan sistem AI -nya.