Stability AI SD3：AI繪畫領域的技術巔峰

Stability AI釋出了備受期待的Stable Diffusion 3.0(簡稱SD3)

AI繪畫領域迎來了一場重磅炸彈，Stability AI上週釋出了備受期待的Stable Diffusion 3.0，簡稱SD3。這一訊息迅速在AI繪畫圈中引起了巨大轟動。隨後，官方釋出了一篇詳盡的技術論文，深入闡述SD3實現突破性進展的底層原理。然而，這也引發了廣泛討論和疑問：SD3是否能在RTX 4090顯示卡上順暢執行？對於其他主流GPU的相容性如何？更重要的是，面對強勁競爭對手如OpenAI的Sora，Stability AI是否能夠在這一次中力挽狂瀾，重塑行業格局。

SD3技術架構

Stability AI在官方論文中展示了SD3背後的研究，揭示了一些新方法，並分享了提高模型效能的訓練決策，以及賦予Stable Diffusion 3驚人能力的組合方式。相較於晦澀難懂的數學公式，Stability AI的論文概要更易於普通讀者理解。強調的關鍵點在於“提示”，因為它對於AI繪畫的核心至關重要。與競品相比，SD3在人類主觀評測中的表現可圈可點，在質量、提示理解和執行度等方面全面勝過DALL-E3、MidJourney v6、Ideagram v1等領軍產品。

創新技術與效能表現

SD3引入了全新的“多模態擴散Transformer”架構(MMDIT)，這一創新架構使用獨立的權重編碼影象和文字特徵，顯著提升了文字理解和拼寫能力。圖表資料顯示，在視覺美感度、提示匹配度、質量等方面，SD3在人類偏好調查中明顯領先。與競品相比，SD3在表現上具有明顯優勢，輕鬆穩坐頂尖位置。關於硬體相容性，Stability AI重點測試了SD3在主流消費級顯示卡上的表現，喜人的結果表明即使是模型引數高達80億的“巨無霸”版本，在RTX 4090的24GB視訊記憶體下依然能完整執行，呈現出令人驚喜的效能。

創造性與實用性結合

SD3的關鍵在於快速理解並準確執行提示，同時具備靈活調整畫面細節的能力，無需大規模修復。透過優秀的主題理解和場景構建，SD3能夠根據簡單的文字提示靈活生成多樣風格的影象。其“文字到影象”生成能力備受肯定，正是多模態擴散Transformer的功勞，使其能夠在同一輸入中同時接受文字和影象嵌入處理，實現更全面的資訊互動。同時，SD3還進行了重新加權噪聲以改進整流流的技術，這一技術的引入提高了模型的效能和效率，為行業發展帶來了新的思路。

Stability AI的新思路與展望

Stability AI透過一系列設計，使得SD3能保留原始提示意圖的同時，生成多個差異化版本。該技術在即時提示跟隨方面也取得了創新成果，展示對畫面多樣性和主題緊扣度的控制能力。SD3的不斷創新並實現效能提升，讓人對其未來發展充滿期待。隨著算力的提升，SD3有望擁有更多升級空間，極大地提高了價效比。總之，SD3為AI繪畫領域注入了新的活力與創造力，為行業帶來了更廣闊的發展空間。