Antropik mengatakan Claude Chatbot sekarang dapat mengakhiri interaksi yang berbahaya dan kasar

Interaksi yang berbahaya dan kasar wabah ai chatbots. Para peneliti telah menemukan bahwa teman AI menyukai
Karakter.ai, nomi, dan replika tidak aman untuk remaja di bawah 18, chatgpt memiliki potensi untuk memperkuat pemikiran delusi pengguna, dan bahkan CEO Openai Sam Altman telah berbicara tentang pengguna chatgpt yang mengembangkan “ketergantungan emosional” pada AI. Sekarang, perusahaan yang membangun alat -alat ini perlahan -lahan meluncurkan fitur yang dapat mengurangi perilaku ini.

Pada hari Jumat, Antropik mengatakan chatbot Claude sekarang dapat mengakhiri percakapan yang berpotensi berbahaya, yang “dimaksudkan untuk digunakan dalam kasus -kasus jarang dan ekstrem dari interaksi pengguna yang berbahaya atau kasar.” Dalam siaran pers, antropik mengutip contoh -contoh seperti konten seksual yang melibatkan anak di bawah umur, kekerasan, dan bahkan “tindakan teror.”

“Kami tetap sangat tidak yakin tentang potensi status moral Claude dan LLM lainnya, sekarang atau di masa depan,” kata Anthropic dalam siaran persnya pada hari Jumat. “Namun, kami menangani masalah ini dengan serius, dan di samping program penelitian kami, kami sedang berupaya mengidentifikasi dan mengimplementasikan intervensi berbiaya rendah untuk mengurangi risiko untuk memodelkan kesejahteraan, jika kesejahteraan seperti itu dimungkinkan. Memungkinkan model untuk mengakhiri atau keluar interaksi yang berpotensi menyusahkan adalah salah satu intervensi tersebut.”

Kecepatan cahaya yang dapat dipasangkan

Antropik memberikan contoh Claude yang mengakhiri percakapan dalam siaran pers.
Kredit: Antropik

Antropik mengatakan Claude Opus 4 memiliki “keengganan yang kuat dan konsisten untuk membahayakan,” yang ditemukan selama penilaian kesejahteraan model awal sebagai uji pra-penempatan dari model. Ini menunjukkan “preferensi yang kuat terhadap terlibat dengan tugas-tugas berbahaya,” bersama dengan “pola kesusahan yang jelas ketika terlibat dengan pengguna dunia nyata yang mencari konten berbahaya, dan” kecenderungan untuk mengakhiri percakapan berbahaya ketika diberi kemampuan untuk melakukannya dalam interaksi pengguna yang disimulasikan. “

Pada dasarnya, ketika pengguna secara konsisten mengirimkan permintaan yang kasar dan berbahaya kepada Claude, ia akan menolak untuk mematuhi dan berusaha untuk “mengarahkan interaksi secara produktif.” Itu hanya mengakhiri percakapan sebagai “pilihan terakhir” setelah mencoba mengarahkan kembali percakapan beberapa kali. “Skenario di mana ini akan terjadi adalah kasus tepi ekstrem,” tulis Anthropic, menambahkan bahwa “sebagian besar pengguna tidak akan memperhatikan atau dipengaruhi oleh fitur ini dalam penggunaan produk normal apa pun, bahkan ketika membahas masalah yang sangat kontroversial dengan Claude.”

Jika Claude harus menggunakan fitur ini, pengguna tidak akan dapat mengirim pesan baru dalam percakapan itu, tetapi mereka masih bisa mengobrol dengan Claude dalam percakapan baru.

“Kami memperlakukan fitur ini sebagai percobaan yang berkelanjutan dan akan terus menyempurnakan pendekatan kami,” tulis Anthropic. “Jika pengguna menemukan penggunaan yang mengejutkan dari kemampuan mengakhiri percakapan, kami mendorong mereka untuk mengirimkan umpan balik dengan bereaksi terhadap pesan Claude dengan jempol atau menggunakan tombol 'memberikan umpan balik' yang berdedikasi.”

Topik
Kecerdasan buatan