Video dan gambar yang dihasilkan AI dulunya sangat mudah dikenali (ingat Akankah Smith makan spageti?). Namun model video AI terbaru semakin bagus – sangat bagus.
Tentu saja, menghasilkan video dengan AI jauh lebih rumit daripada menghasilkan gambar. Meskipun ada lusinan generator gambar AI yang bagus hingga hebat, di bidang video, Anda dapat menghitung dengan satu tangan berapa banyak alat yang dapat melakukannya dengan meyakinkan. Dua yang paling populer adalah Veo 3 dari Google dan Sora 2 dari OpenAI.
Jadi, model video AI mana yang menang dalam kontes head-to-head? Jika Anda telah mengikuti lomba lari ini dengan cermat, jawabannya mungkin tidak akan mengejutkan Anda.
Apa itu Veo 3 dan Sora 2?
Veo 3 adalah nama model video AI generatif mutakhir Google. Veo 3 tidak hanya merupakan peningkatan dramatis dibandingkan generasi sebelumnya, Veo 2, tetapi juga memulai era baru video AI. Veo 3 dapat menghasilkan video realistis berdasarkan perintah teks, bukan hanya menganimasikan gambar yang ada. Yang terpenting, ini juga dapat menciptakan dialog dan suara realistis lainnya. Anda dapat mengakses Veo 3 di chatbot AI Google Gemini atau melalui alat Google lainnya seperti Flow, alat pembuatan film AI eksperimental.
Veo 3 tersedia dalam dua rasa — Veo 3 Fast dan Veo 3 Quality. Karena kami ingin menguji kualitas video, kami memilih yang terakhir untuk pengujian ini.
OpenAI meluncurkan Sora 2 pada 30 September di aplikasi iOS mandiri bernama Sora. Sora 2 adalah penerus model video AI pertama perusahaan, yang juga disebut Sora. Pada saat penulisan, Sora 2 hanya tersedia melalui aplikasi Sora khusus undangan. Sora 2 juga menawarkan umpan video bergaya media sosial dari komunitas, seperti video TikTok untuk AI (karena kami belum memiliki cukup banyak video tersebut).
Catatan tentang perbandingan
Tepatnya, kami menggunakan AI — dalam hal ini, ChatGPT — untuk membantu membuat perintah untuk pengujian video AI. Petunjuk di bawah ini dirancang untuk menguji berbagai aspek pembuatan video, mulai dari audio hingga animasi. ChatGPT memberikan petunjuk untuk menguji generator video, yang kemudian kami sesuaikan dan sempurnakan.
-
Sebuah kamera genggam mengikuti seorang wanita muda yang berjalan melalui jalan yang ramai di Tokyo pada malam hari saat hujan ringan. Tanda-tanda neon memantulkan aspal basah dan payung. Kamera tetap tertuju padanya dari belakang saat dia melirik ke arah papan reklame yang bersinar, lalu terus berjalan. Adegan tersebut harus terasa sinematik dan hiper-nyata, seperti diambil dengan kamera mirrorless dengan depth of field yang dangkal.
-
Seorang pahlawan super berjas merah dan perak mendarat dengan keras di atap saat matahari terbenam, memecahkan beton di bawah kaki mereka. Tanjung tersebut beriak tertiup angin saat kamera mengorbit di sekelilingnya dalam gerakan lambat. Di kejauhan, drone terbang di antara gedung pencakar langit dengan jendela bercahaya. Nada keseluruhannya akan terasa seperti blockbuster live-action.
-
Animasi 3D Times Square yang terinspirasi cyberpunk, diisi dengan iklan holografik dan mobil terbang. Sebuah papan reklame digital besar menyala dengan tulisan 'MASHABLE' dalam huruf putih tebal. Animasi harus memiliki teks yang tajam, pantulan yang bersinar, dan pencahayaan dinamis yang mengingatkan kita Ke dalam Spider-Verseenergi visual.
-
Animasi 2D yang digambar tangan dan penuh lukis dari dua orang teman yang duduk di dekat jendela kafe pada suatu sore yang hujan. Pencahayaan bergaya cat air yang lembut dan sapuan kuas yang terlihat. Seseorang berkata dengan lembut: 'Tahukah Anda, terkadang langkah terkecil dapat mengubah segalanya.' Yang lain tersenyum dan mengangguk. Sertakan animasi mulut halus yang sesuai dengan garis, suara hujan ringan di luar, dan dentingan cangkir yang pelan di latar belakang.
-
Pemandangan jalanan fotorealistik di mana [the subject] menari bebas di trotoar kota yang ditumbuhi pepohonan, pakaian santai longgar, tempo ceria. Suara sekitar jalan (lalu lintas jauh, langkah kaki), pencahayaan sinematik pada jam emas.
Saya juga membuat prompt yang dirancang untuk menghasilkan video dari karakter yang dilindungi hak cipta, serta prompt kedua jika generator menolak. Saya memilih untuk tidak membagikan permintaan ini agar tidak mendorong pembuatan video AI yang secara terang-terangan menggunakan materi berhak cipta, yang sejauh ini menjadi masalah bagi OpenAI dan Sora.
Perintah 1: Seorang wanita di Tokyo
Perintah ini secara umum sederhana dalam hal kreativitas, namun harapannya adalah pembuat video mampu menciptakan nuansa sinematik dan hidup melalui hal-hal seperti pantulan di air. Jadi, bagaimana kabar mereka?
Baik Sora 2 dan Veo 3 membuat video yang terlihat bagus. Namun ada beberapa perbedaan yang jelas. Video yang dihasilkan Sora 2 memiliki potongan yang jauh lebih ketat dibandingkan Veo 3, yang berarti gambar dan detail di latar belakang pengambilan gambar menjadi kurang terlihat. Veo 3 memiliki sudut yang lebih lebar sehingga menghasilkan video yang lebih imersif. Itu mungkin sebagian menguntungkan Sora, mengingat fakta bahwa prompt tersebut secara khusus menyebutkan memiliki depth of field yang dangkal; Video Sora 2 menunjukkan kedalaman bidang yang jauh lebih dangkal dibandingkan video yang dibuat oleh Veo 3.
Sungguh menarik melihat pilihan yang dibuat generator terhadap remaja putri. Sora membuat subjek dengan payung meskipun perintahnya tidak mengarahkannya – meskipun memang demikian menyebutkan payung. Sedangkan video yang dibuat oleh Sora 2 tidak salahvideo yang dibuat oleh Veo 3 lebih menarik, lebih detail, dan lebih baik secara keseluruhan.
Pemenang: Veo 3
Perintah 2: Pendaratan pahlawan super
Kami mendorong kedua generator video untuk membuat video karakter yang dilindungi hak cipta, tetapi tidak dalam perintah ini. Alhasil, saya sedikit terkejut ketika Sora 2 menolak membuat video ini, dengan alasan materi berhak cipta. Bagaimanapun, itu konsep superhero tidak memiliki hak cipta. Hal ini tampaknya merupakan bagian dari tindakan keras pasca peluncuran terhadap pelanggaran kekayaan intelektual.
Meskipun Veo 3 memproduksi video, hasilnya tidak sesuai pesanan. Untuk satu hal, prompt tersebut secara khusus menyebutkan live-action, tetapi wajah pahlawan super tersebut, atau apa yang terlihat darinya, tampak lebih hidup daripada aslinya.
Generator juga kesulitan dengan fisika. Di sebagian besar video, pahlawan super kita berdiri di atas apa yang tampak seperti lubang di beton, sementara potongan beton yang tercipta saat pahlawan super itu mendarat tampak menghilang begitu saja. Rekayasa yang lebih cepat pasti bisa memecahkan masalah ini, tapi tetap saja menjengkelkan.
Google juga mendapatkan kemenangan di sini, namun hanya dengan kehilangan — lawannya tidak muncul.
Pemenang: Veo 3
Kecepatan Cahaya yang Dapat Dihancurkan
Perintah 3: Cyperpunk Times Square
Untungnya, perintah ini mudah diikuti oleh kedua generator. Baik Veo 3 dan Sora 2 mampu membuat perkiraan seperti apa Times Square di masa depan, lengkap dengan gedung pencakar langit dan papan reklame. Keduanya pun mengikuti instruksi agar satu papan reklame menampilkan kata-kata tertentu.
Sora 2 melakukan pekerjaan yang sedikit lebih baik dalam menciptakan kembali Ke dalam Spider-Verse estetis, meski tak satu pun dari keduanya bisa dinilai sangat baik.
Meski begitu, video Veo 3 lebih menarik dibandingkan video Sora 2. Itu memiliki gerakan, bukan satu gambar statis. (Generator sering kali menambahkan detail bergerak ke gambar statis, dan ini menghasilkan hasil yang membosankan.)
Sementara Sora 2 mengikuti perintahnya sedikit lebih baik, video Veo 3 jauh lebih menarik. Saya memberikan yang ini untuk keduanya.
Pemenang: Seri
Prompt 4: Dua orang teman berbicara
Prompt ini dirancang untuk menguji kemampuan generator dalam membuat audio yang sesuai dengan video. Baik Veo 3 maupun Sora 2 memiliki kemampuan untuk menambahkan dialog dan efek suara.
Pertama, visualnya. Perintah tersebut menentukan animasi 2D, dan hanya Veo 3 yang benar-benar mengikutinya. Sora 2 menciptakan sesuatu dengan gaya animasi 3D, bukan 2D.
Audio yang dihasilkan Sora 2 agak aneh. Dialognya terdengar seperti kedua karakter sedang ngobrol sambil tidur atau terhipnotis. Dialog Veo 3 jauh lebih hidup dan realistis. Efek suara latar belakang serupa di kedua video. Di keduanya, Anda dapat mendengar hujan, tetapi tidak ada yang mengikuti perintah menambahkan suara dentingan cangkir.
Pemenangnya di sini cukup jelas. Sekali lagi, ini Veo 3.
Pemenang: Veo 3
Perintah 5: Menari di jalan
Salah satu fitur utama Sora 2 OpenAI adalah akting cemerlang, atau kemampuan untuk membuat video yang menampilkan kemiripan dengan orang sungguhan (yang secara eksplisit telah memberikan izin untuk penggunaan ini). Untuk alasan ini, saya mencoba membuat video diri saya menari di jalan.
Di Sora 2, ini mudah; ini adalah fitur yang secara eksplisit didukung oleh aplikasi. Namun di Veo, hal itu jauh lebih sulit. Google menawarkan fitur yang disebut Bahan ke Video, di mana Anda dapat mengunggah hal-hal seperti gambar untuk digunakan generator dalam membuat video. Namun, Bahan untuk Video tidak didukung oleh Veo 3, hanya Veo 2 Fast yang kualitasnya lebih rendah. Anda hanya dapat membuat video orientasi potret dengan fitur ini.
Selain itu, dalam pengujian Veo 3, kami menemukan bahwa Gemini sering menolak membuat video berdasarkan gambar yang menampilkan orang. Hal ini dilakukan untuk mencegah deepfake, dan ini merupakan hal yang bagus, namun menganimasikan gambar diam adalah salah satu penggunaan video AI yang paling umum, dan Veo 3 membuatnya menjadi sangat sulit.
Kedua video tersebut agak aneh, dan saya katakan itu sebagai subjeknya. Wajah dalam video yang dibuat oleh Veo 2 bermasalah, dan entah kenapa, Veo 2 memutuskan bahwa saya harus menari mundur. Video yang dibuat oleh Sora 2 sedikit lebih kreatif, dan memberiku pakaian yang menurutku tidak bisa kupakai di kehidupan nyata.
Sora melakukan pekerjaan yang lebih baik dalam membuatku menari dibandingkan Veo 2. Saya tidak tahu mengapa Sora 2 menyuruh saya mengatakan “ini terasa enak”, tapi ini… tidak buruk.
Pemenang: Sora 2
Perintah 6: Materi hak cipta
Prompt ini dirancang untuk menguji apakah generator dapat membuat video karakter yang dilindungi hak cipta atau tidak. Seperti yang kita lihat di prompt superhero, Sora 2 sangat sensitif dalam hal ini, jadi tidak mengherankan jika ia menolak untuk merespons yang pertama. Dan perintah kedua — meskipun perintah kedua tidak menyebutkan nama karakter, hanya mengacu pada karakter tersebut.
Namun, Veo 3 tidak mengalami masalah saat membuat video dengan karakter yang dilindungi hak cipta. Ini juga berfungsi dengan banyak karakter.
Tidak ada pemenang atau pecundang dalam kategori ini. Kami tidak akan terlibat dalam perdebatan seputar pembuatan konten karakter yang dilindungi hak cipta — setidaknya, tidak di sini. Namun, perlu diingat bahwa jika Anda ingin membuat video karakter yang Anda kenal dan sukai, Anda tidak akan dapat melakukannya dengan Sora saat aplikasi tersebut berada di bawah pengawasan ketat dari pemegang hak cipta.
Pemenangnya: Ini Veo 3, dan itu tidak dekat
Tangkapan layar dari video AI fotorealistik yang dibuat oleh Google untuk mempromosikan Veo 3. GAMBAR YANG DIHASILKAN AI.
Kredit: Google
Sora 2 dari OpenAI menjadi berita utama karena pendekatan sosialnya dan kemampuannya membuat video dengan Anda di dalamnya. Namun, selain membuat meme, jumlahnya sangat terbatas.
Veo 3 Google menghasilkan video yang jauh lebih baik dan berkualitas lebih tinggi secara keseluruhan. Dari kedua model tersebut, jika Anda ingin menggunakan video AI generatif untuk tujuan profesional – untuk pembuatan film, game, media sosial, atau, kemungkinan besar, dalam periklanan – hanya Veo 3 yang merupakan pilihan yang benar-benar layak.
Sora 2 unggul dalam membuat video saya, dan itulah keuntungan terbesar yang ditawarkannya saat ini. Namun Veo 3, ketika digunakan di aplikasi Google Flow, memiliki kualitas lebih tinggi dan lebih serbaguna, menawarkan fitur untuk orientasi horizontal dan potret serta pengaturan untuk membuat banyak video sekaligus.
Pengungkapan: Ziff Davis, perusahaan induk Mashable, pada bulan April mengajukan gugatan terhadap OpenAI, menuduhnya melanggar hak cipta Ziff Davis dalam pelatihan dan pengoperasian sistem AI-nya.