位元組跳動領先AI影片生成技術的新突破
2024年開年,OpenAI推出的Sora在生成式AI領域引起轟動。影片生成技術一直處在快速迭代的狀態,很多科技公司都在公佈相關技術進展和成果。Pika、Runway等公司之前推出類似產品,但Sora的Demo明顯提高了影片生成的標準。在這場競爭中,誰能率先推出超越Sora的產品尚不可知。國內關注的焦點集中在各大科技公司上。據稱,位元組跳動在Sora釋出之前就研發了一款名為Boximator的影片生成模型。
Boximator:影片生成中的新技術方法
Boximator提供了一種精確控制影片中物體生成的方法。使用者無需編寫複雜的文字提示,只需在參考影象中透過畫方框選擇目標即可,然後透過新增方框和線條來定義目標的結束位置或跨幀的整個運動路徑。位元組跳動對此保持低調,稱其為影片生成領域中控制物件運動的技術方法研究專案。然而,Boximator作為一個完善的產品尚未落地,與國外領先影片生成模型在畫面質量、保真率和影片時長等方面仍存在差距。
位元組跳動在影片生成領域的最新研究成果
位元組跳動智慧團隊發表了9項關於文生圖、文生影片、圖生影片和影片理解等多項研究成果。他們不斷探索視覺生成模型的技術進步。值得一提的是,位元組跳動在今年1月釋出了一個影片生成模型MagicVideo-V2。這個模型透過將文字到影象模型、影片運動生成器、參考影象嵌入模組和幀插值模組整合到端到端影片生成pipeline中,實現了高審美水準影片的生成。
MagicVideo-V2透過一系列步驟生成高質量影片,從建立靜態影象到動畫處理再到幀增強,最終生成影片。研究者透過大規模使用者評估表明,MagicVideo-V2比一些知名的方法更受歡迎。這標誌著影片生成技術的進步,離不開文生圖、圖生影片等技術鋪路的AIGC技術。統一視覺和語言學習的研究正規化為高質量影片生成提供了基礎,在視覺和語言模態學習、融合方面取得了進展。
擴散模型的應用與挑戰
擴散模型作為影片生成模型的技術之一,在影象、音訊、3D點雲等領域應用廣泛。MagicAnimate和DREAM-Talk是兩個基於擴散技術的視覺和語音處理專案,分別用於人類影象動畫和情緒化人臉生成。這些專案透過改進技術,提高了影片和影象生成的保真度和感知質量。
然而,擴散模型在生成過程中的一些步驟還存在挑戰,比如引導取樣。為解決這一問題,位元組跳動提出了Symplectic Adjoint Guidance(SAG),透過對模型進行梯度引導,實現了更高質量的生成內容。此外,Adjoint Sensitivity Method提供了一種梯度反向傳播方法,進一步提升了擴散機率模型的表現。
位元組跳動在AI影片生成領域的不斷探索和創新,展現了技術跨越的進步。儘管與Sora相比還存在一定差距,但位元組跳動的一系列研究成果令人期待。同時,國內外科技公司和研究團隊在影片生成技術領域的競爭將會更加激烈,未來影片生成技術的突破還有很多看點。