Agen AI rusak. Apakah GPT-5 benar-benar jawabannya?

Saat 2025 Dawned, CEO OpenAI Sam Altman mempromosikan dua perkembangan yang dia bersikeras akan mengubah hidup kita. Salah satunya, tentu saja, adalah GPT-5-peningkatan besar yang telah lama ditunggu-tunggu ke Model Bahasa Besar (LLM) yang bertenaga kenaikan chatgpt ke superstardom dunia teknologi.

Yang lainnya? Agen AI yang tidak hanya menjawab pertanyaan Anda seperti chatgpt, tetapi sebenarnya menyelesaikan hal -hal untuk Anda. “Kami percaya bahwa, pada tahun 2025, kami dapat melihat agen AI pertama bergabung dengan tenaga kerja dan secara material mengubah output perusahaan,” tulis Altman pada bulan Januari.

Nah, kami delapan bulan, dan prediksi Altman sudah membutuhkan tanda bintang lama. Tentu, perusahaan ingin mengadopsi agen AI, seperti agen chatgpt Openai. Dalam laporan Mei 2025, raksasa konsultan PWC menemukan bahwa setengah dari semua perusahaan yang disurvei berencana untuk menerapkan semacam agen AI pada akhir tahun. Sekitar 88% eksekutif ingin meningkatkan anggaran AI tim mereka karena AI agen.

Lihat juga:

GPT-5 tiba segera. Inilah yang tidak akan dikatakan oleh hype.

Tapi bagaimana dengan pengalaman agen AI yang sebenarnya? Dengan permintaan maaf kepada semua eksekutif yang penuh harapan, ulasannya hampir secara seragam negatif.

Jika “AI Agents” adalah film James Bond yang berteknologi tinggi baru, inilah jenis uraian yang Anda lihat di Rotten Tomatoes: “Glitchy … tidak konsisten” (kabel); “Datang seperti pemula internet yang tidak mengerti” (perusahaan cepat); “Realitas tidak sesuai dengan hype” (Fortune); “Tidak cocok dengan kata kunci” (Bloomberg), “Vaporware baru … overpromising lebih buruk dari sebelumnya” (Forbes).

Studi menemukan entri Openai gagal hampir setiap saat

Studi Universitas Carnegie Mellon (PDF) Mei 2025 Mei menemukan Google Gemini Pro 2.5 gagal pada tugas kantor dunia nyata 70% dari waktu. Dan itu adalah terbaikAgen -Performing. Entri Openai, ditenagai oleh GPT 4.O, gagal lebih dari 90% dari waktu.

GPT-5 kemungkinan akan meningkatkan angka itu … tapi itu tidak banyak bicara. Dan bukan hanya karena laporan awal mengatakan Openai berjuang untuk mengisi GPT-5 dengan peningkatan yang cukup untuk membuatnya layak untuk nomor rilis.

Memang, ini mulai terlihat pada peneliti seperti kekecewaan ini dipanggang untuk seluruh proses LLMS belajar melakukan hal -hal untuk Anda. Masalahnya, karena analisis insinyur agen AI ini memperjelas, adalah matematika sederhana: kesalahan senyawa dari waktu ke waktu, sehingga semakin banyak tugas yang dilakukan agen, semakin buruk yang mereka dapatkan. Agen AI yang melakukan banyak tugas kompleks rentan terhadap halusinasi, seperti semua AI.

Kecepatan cahaya yang dapat dipasangkan

Pada akhirnya beberapa agen “panik” dan dapat membuat “kesalahan besar dalam penilaian,” untuk mengutip permintaan maaf dari agen AI yang secara harfiah menghapus database pelanggan setelah 9 hari bekerja pada tugas pengkodean. (CEO Replit menyebut kegagalan itu “tidak dapat diterima”.)

Yang mengejutkan, itu bukan satu-satunya kisah AI-agent-wipes-kode tahun 2025-yang menjelaskan mengapa satu startup yang giat menawarkan asuransi pada agen AI Anda yang akan menjadi haywire, dan mengapa Wal-Mart harus membawa empat “agen super” dalam upaya untuk menggali agen AI-nya.

Tidak heran makalah Gartner baru -baru ini meramalkan bahwa 40% dari semua agen AI yang saat ini sedang diprakarsai oleh perusahaan akan dibatalkan dalam waktu 2 tahun. “Sebagian besar proyek AI agen,” tulis analis senior Anushree Verma, “didorong oleh hype dan disalahgunakan … Ini dapat membutakan organisasi dengan biaya dan kompleksitas agen AI yang sebenarnya dalam skala.”

Apa yang dapat dilakukan GPT-5 untuk agen AI?

Mungkin saja agen chatgpt akan melompat ke bagian atas grafik reliabilitas setelah ditenagai oleh GPT-5. (Sekali lagi, itu bukan hambatan tertinggi.) Tetapi rilis baru tidak mungkin untuk memperbaiki apa yang benar -benar membuat dunia agen.

Itu karena pagar pembatas sudah didirikan - oleh perusahaan dan juga regulator - mematikan apa yang bahkan dapat dilakukan oleh agen AI yang paling andal untuk Anda.

Ambil Amazon, misalnya. Pengecer terbesar di dunia, seperti kebanyakan raksasa teknologi, sedang membicarakan pertandingan besar tentang agen AI (seperti yang mereka lakukan di sebuah agen AI Fair Shanghai pada bulan Juli, digambarkan di atas). Pada saat yang sama, Amazon telah menutup kemampuan agen AI mana pun untuk menelusuri dan membeli di mana saja di situsnya.

Itu masuk akal untuk Amazon, yang selalu menginginkan kendali atas pengalaman pelanggan, belum lagi keinginannya untuk memberikan iklan dan hasil yang disponsori ke bola mata manusia yang sebenarnya. Tapi itu juga mengurangi sejumlah besar aktivitas agen potensial di sana. (Di sisi positifnya, tidak ada “kegagalan bencana” yang melibatkan tumpukan besar pengiriman hari berikutnya di pintu Anda.)

Dan apakah kita mempercayai agen AI untuk membeli secara online untuk kita? Bukannya mereka jahat dan ingin mencuri data kartu kredit Anda; mereka naif dan rentan untuk dipasangkan oleh aktor jahat yang Mengerjakan ingin kartu Anda.

Bahkan GPT-5 mungkin tidak dapat menyiasati satu kerentanan yang dilihat oleh para peneliti: data yang tertanam dalam gambar dapat menginstruksikan agen AI untuk mengungkapkan info kartu kredit yang mungkin mereka miliki, dengan pengguna tidak lebih bijak.

Jika masalah semacam itu dieksploitasi pada skala perusahaan, maka Altman mungkin benar tentang agen AI “secara material mengubah output” - hanya saja tidak seperti yang dia maksudkan.

Topik
Kecerdasan buatan openai