Sora henüz resmi olarak duyurulmadı. Ama ilk rakibi ortaya çıktı bile. Sora’ya Çin’den gelen cevap Vidu ile tanışalım. Vidu, Çin’in ilk uzun süreli, oldukça tutarlı ve dinamik video modellemesi. Sora’yı geçer mi sizce? Birlikte bakalım.

Vidu, 16 saniyelik tutarlı senaryo, karakter ve olay örgüsüne sahip videolar üretebiliyor. Hayal gücü oldukça gelişkin ve fiziki dünyayı tahmin edebiliyor.

Vidu: Sözlerden Video’ya

Film üreticileri Sora’yı henüz nasıl kullanacaklarına karar verememişken bir yenisi daha geldi. Çinli AI firması Shengshu Technology ve Tsinghua Üniversitesi tarafından geliştirilen Vidu’nun yetenekleri Universal Vision Transformer (U-ViT) mimarisine dayanıyor. Shengshu’nun şef bilim adamı Zhu Jun “Vidu birçok alanda kendini gösteren, kendi kendine dayanan yeniliklerin son başarılı ürünlerinden,” diyor. Shu Jun aynı zamanda, Beijing News’e göre Vidu’yu Zhongguancun Forum’da tanıtan, Tsinghua AI Enstitüsü’nün dekan yardımcısı. Zhu Jun’un dediğine göre Vidu, oldukça yaratıcı, fiziki dünyayı simüle edebiliyor ve 16 saniyelik, tutarlı karakter, sahne ve olay akışına sahip videolar üretebiliyor. Ayrıca modelin “Çin’e dair öğeleri” de anlayabildiğini ekliyor.

Vidu: China's first long-duration, highly consistent, and highly dynamic video model. — VİDU: Çin’in ilk uzun süreli, tutarlı video üretim modeli

Sora’nın bir dakikalık bir klip üretebilmesi için sekiz adet Nvidia A100 Tesor Core GPU’nun üç saatten fazla çalışabilmesi gerekiyor.

Sora ile bağlantılı olan Demo klipler

Model tanıtılırken Shengshu, bir pandanın çimlerde otururken gitar çaldığı, bir köpek yavrusunun havuzda yüzdüğü, oldukça canlı detaylara sahip birkaç demo klip gösterdi. Oluşturulan bu görüntüler Sora ile benzerlikleri dolayısıyla, Vidu’nun Sora’ya gerçekten bir rakip olduğunu göstermek için seçilmiş. Gerçekten de Çinli kaynaklar, Microsoft destekli OpenAI gibi uluslararası AI video modelleri ile rekabet edebilir olması sebebiyle Vidu’nun ülkede bir ümit dalgası yarattığını söylüyor. Bu arada Sora’nın film üreticileri tarafından nasıl kullanılabileceği konusunda buradan bilgi alabilirsiniz. Bu bizce düşünüldüğü kadar kolay değil. “Söylenenleri yapıyor” kadar basit bir işleyişi yok. Birçok kurgu tekniğini içeriyor ve uzun bir post prodüksiyon süreci var. Bazen aynı sahneleri kamera ile çekmek bile daha kısa sürebilir.

Sora ile Karşılaştırılması

Beijing’de akıllı bilgi işlem sektöründe teknik danışman olarak çalışan Li Yangwei’ye göre Sora’nın bir dakikalık bir klip üretebilmesi için sekiz adet Nvidia A100 Tesor Core GPU’nun üç saatten fazla çalışabilmesi gerekiyor. “Sora’nın çıkarım yapması için çok fazla işlemci gücüne ihtiyacı var,” diyor ve Vidu’nun daha az böyle bir duruma sahip olduğunu söylüyor.

OpenAI’dan şu zamana kadar bu konuda hiçbir şey duymamış olmamız ilginç. Teknik olarak konuşursak Vidu, hem diffusion hem de transformer kaynaklı, metinden video’ya modellerin güçlerini birleştirerek yaratıcı bir şekilde tutarlı karakter, sahne ve olay akışı içeren 16 saniyelik videolar üretebiliyor. Vidu, Universal Vision Transformer (U-ViT) adında bir görsel dönüştürücü modeli üzerine kurulmuş. Geliştiriciler bunun iki metinden görsele modelin birleşimi olduğunu belirliyor: Diffusion ve Transformer. Bu mimari çerçeve, dinamik kamera hareketlerine sahip, karmaşık yüz mimiklerine sahip, otantik ışıklandırma ve gölgelendirme efektleri ile, daha hayata benzer videolar üretilebilmesini sağlıyor. Daha fazla teknik detay için bu adrese bakabilirsiniz.

Zhu’ya göre Sora’nın tanıtılması onların araştırma takımının teknik yönü ile bağdaştı ve kendi araştırmaları için devam etme eforlarını güçlendirdi. Şimdilik Vidu, Sora’nın aşağısında yer alıyor. Fakat yokuş dik, yani yıl içerisinde daha iyi bir hale gelebilir. Aşağıdaki videodan Vidu’ya göz atabilirsiniz: