Stability AI釋出了備受期待的Stable Diffusion 3.0(簡稱SD3)
AI繪畫領域迎來了一場重磅炸彈,Stability AI上週釋出了備受期待的Stable Diffusion 3.0,簡稱SD3。這一訊息迅速在AI繪畫圈中引起了巨大轟動。隨後,官方釋出了一篇詳盡的技術論文,深入闡述SD3實現突破性進展的底層原理。然而,這也引發了廣泛討論和疑問:SD3是否能在RTX 4090顯示卡上順暢執行?對於其他主流GPU的相容性如何?更重要的是,面對強勁競爭對手如OpenAI的Sora,Stability AI是否能夠在這一次中力挽狂瀾,重塑行業格局。
SD3技術架構
Stability AI在官方論文中展示了SD3背後的研究,揭示了一些新方法,並分享了提高模型效能的訓練決策,以及賦予Stable Diffusion 3驚人能力的組合方式。相較於晦澀難懂的數學公式,Stability AI的論文概要更易於普通讀者理解。強調的關鍵點在於“提示”,因為它對於AI繪畫的核心至關重要。與競品相比,SD3在人類主觀評測中的表現可圈可點,在質量、提示理解和執行度等方面全面勝過DALL-E3、MidJourney v6、Ideagram v1等領軍產品。
創新技術與效能表現
SD3引入了全新的“多模態擴散Transformer”架構(MMDIT),這一創新架構使用獨立的權重編碼影象和文字特徵,顯著提升了文字理解和拼寫能力。圖表資料顯示,在視覺美感度、提示匹配度、質量等方面,SD3在人類偏好調查中明顯領先。與競品相比,SD3在表現上具有明顯優勢,輕鬆穩坐頂尖位置。關於硬體相容性,Stability AI重點測試了SD3在主流消費級顯示卡上的表現,喜人的結果表明即使是模型引數高達80億的“巨無霸”版本,在RTX 4090的24GB視訊記憶體下依然能完整執行,呈現出令人驚喜的效能。
創造性與實用性結合
SD3的關鍵在於快速理解並準確執行提示,同時具備靈活調整畫面細節的能力,無需大規模修復。透過優秀的主題理解和場景構建,SD3能夠根據簡單的文字提示靈活生成多樣風格的影象。其“文字到影象”生成能力備受肯定,正是多模態擴散Transformer的功勞,使其能夠在同一輸入中同時接受文字和影象嵌入處理,實現更全面的資訊互動。同時,SD3還進行了重新加權噪聲以改進整流流的技術,這一技術的引入提高了模型的效能和效率,為行業發展帶來了新的思路。
Stability AI的新思路與展望
Stability AI透過一系列設計,使得SD3能保留原始提示意圖的同時,生成多個差異化版本。該技術在即時提示跟隨方面也取得了創新成果,展示對畫面多樣性和主題緊扣度的控制能力。SD3的不斷創新並實現效能提升,讓人對其未來發展充滿期待。隨著算力的提升,SD3有望擁有更多升級空間,極大地提高了價效比。總之,SD3為AI繪畫領域注入了新的活力與創造力,為行業帶來了更廣闊的發展空間。