Dalam beberapa bulan terakhir, sejumlah pemain utama telah memasuki ruang teks-ke-video. Pada bulan Desember 2024, OpenAI merilis Sora, model pertamanya yang mampu menghasilkan klip video pendek dari teks. Pada bulan Mei 2025, Google Gemini memperkenalkan Veo 3, yang berfokus pada kualitas dan koherensi video. Bidang ini berkembang pesat, tetapi para pendiri Moonvalley percaya bahwa banyak pilihan di pasar yang mengabaikan pertimbangan penting: bagaimana perasaan para seniman tentang AI.
“Perspektif kami sejak hari pertama pada dasarnya adalah membangun model tingkat produksi,“ kata Naeem Talukdar, Co-Founder dan CEO Moonvalley, dalam sebuah wawancara dengan IBM® Think. “Model apa saja yang perlu dan ingin digunakan oleh para pembuat film dan kreator sejati?” Moonvalley telah merekrut peneliti dari DeepMind dan Google, dan juga merupakan mitra Asteria, studio film AI yang didirikan oleh Bryn Mooser, seorang eksekutif film.
Sejak riset tentang model generasi teks-ke-video dimulai, banyak orang di industri AI mengantisipasi revolusi baru dalam produksi film dan TV. Direktur James Cameron bergabung dengan dewan Stability AI hampir setahun yang lalu, dan pemenang Oscar Darren Aronofsky baru-baru ini mengumumkan kemitraan dengan Google DeepMind. Perlu disebutkan juga bahwa film yang dibuat dengan AI akan bisa mendapatkan Oscar, menurut The Academy. Dan Netflix baru saja merilis acara pertamanya yang menggunakan AI generatif.
AI telah menjadi masalah sensitif di Hollywood, terutama selama pemogokan penulis. Banyak seniman telah vokal tentang ketakutan mereka bahwa suara atau gambar mereka dapat direplikasi tanpa persetujuan mereka.
Namun menurut Talukdar, sebagian besar produsen belum mengambil lompatan AI. Bukan karena apa yang teknologi bisa atau tidak bisa lakukan, tetapi karena kekhawatiran seputar hak cipta. “Apa yang kami temukan di tingkat studio adalah, untuk alasan hukum dan etika, tidak ada yang ingin menyentuh model-model ini karena data yang telah mereka latih,” katanya.
“Terlepas dari bagaimana berbagai gugatan itu berkembang dan bagaimana preseden akhirnya ditetapkan, yang tidak dapat dipungkiri adalah kekhawatiran bahwa ketika Anda menggunakan model yang dilatih dengan jutaan jam rekaman, Anda bisa saja tanpa sengaja membocorkan atau menghasilkan cuplikan yang berhak cipta—meskipun tidak disengaja.” ujar Talukdar. “Itu benar-benar tidak dapat diterima bagi para pembuat film serius dan perusahaan-perusahaan besar.”
Menciptakan sebuah alat yang dapat memberdayakan para artis dan meredakan ketakutan ini adalah gagasan di balik model dasar milik Moonvalley, Marey, yang dirilis pada bulan Juli. Model ini dilatih pada konten berlisensi, menurut perusahaan, yang juga bangga menawarkan kontrol yang lebih besar kepada pembuat konten.
“Kami memandang [klien kami] sebagai para profesional dalam arti yang luas. Kami tidak fokus pada sisi konsumen atau video TikTok,” kata Mooser dalam sebuah wawancara dengan IBM® Think. “Kreatif dan pembuat film yang serius membutuhkan kendali atas apa yang mereka ciptakan lebih dari sekadar menulis beberapa kata.”
Membangun model telah membawa dua tantangan—yang pertama adalah menemukan data, yang dijamin perusahaan dengan menjangkau secara individual kepada pembuat film dan YouTuber.
“Di luar beberapa perusahaan rekaman stok, tidak ada pasar besar orang yang melisensikan data mereka, apalagi melisensikan data video untuk pelatihan,” kata Talukdar. “Ada komponen operasional besar hanya menemukan data, bernegosiasi dengan pencipta, mencari tahu perjanjian dan kemudian jelas mendapatkan sumber daya sebagai startup.”
Tantangan lainnya adalah teknis: volume data. “Kami memperkirakan bahwa kami menggunakan data mungkin lima kali lebih sedikit untuk melatih model kami daripada jenis model sebanding terdekat kami,” kata Talukdar. “Kami pikir jika Anda memiliki data lima kali lebih sedikit, Anda membutuhkan arsitektur lima kali lebih baik. Ini adalah bagian inti dari semua yang telah kami lakukan sejauh ini,” katanya, merujuk pada tim peneliti yang dia bangun. “Kami benar-benar telah membangun tim peneliti paling padat bakat di luar angkasa.”
Peluncuran awal musim panas ini mendapat liputan luas di pers, dan Moonvalley sejak itu juga mengumumkan putaran pendanaan baru, bersama dengan proyek-proyek yang mencakup A-listers seperti Aktor dan Sutradara Natasha Lyonne (yang ikut mendirikan Asteria dengan Mooser) dan Jaron Lanier, seorang veteran Lembah Silikon dan Ilmuwan Komputer yang dikenal sebagai perintis realitas virtual.
“Anda belum melihat apa yang dapat dilakukan teknologi ini di tangan pembuat film hebat,” kata Mooser. “Dan itulah yang akan terjadi dalam enam bulan hingga satu tahun ke depan.” Dia menyarankan bahwa Hollywood akan memiliki momen To y Story lagi—di mana tiba-tiba menjadi tidak dapat disangkal bahwa kreativitas dan teknologi dapat bekerja beriringan, membuat para kritikus kagum dan menghasilkan banyak uang di box office.
“Itu datang dengan AI, tetapi ini akan menjadi kisah bisnis lebih dari cerita kreatif. Anda akan melihat film yang memiliki anggaran seperti Flow dan dibuat oleh tim kecil seperti Flow, tetapi itu adalah box office Lilo dan Stitch,” kata Mooser. “Dan itu akan dimiliki oleh pembuat film. Orang-orang akan mengatakan bahwa itulah saat di mana seluruh industri berubah karena seseorang dapat membuat film studio dengan anggaran independen.
Dengan Marey, tim di belakang Moonvalley percaya AI memiliki peluang nyata untuk mengubah tidak hanya industri film, tetapi juga bioskop itu sendiri. Marey tidak hanya memecahkan tantangan teknis. “Ini seperti mengharapkan LLM untuk menulis buku, kan?” tanya Mooser. "Itu mungkin, secara teknologi. Tapi masalahnya adalah tidak ada yang akan membaca buku itu. Itulah masalahnya pada akhirnya, AI tidak memiliki selera. Dan itulah yang saya pikir orang telah melewatkan."
