OpenAI發布首款視頻生成模型Sora
OpenAI發布首款視頻生成模型Sora
發布時間:2024-02-16 15:59:14來源:逗游作者:逗游網
Alien Hop角色好玩的發布休閑快樂小游戲- 游戲類別:休閑益智
- 游戲大小:0 M
- 游戲語言:簡體中文
- 游戲版本:v1.0.0
ChatGPT開發團隊OpenAI發布了最新的視頻生成模型“Sora”,此模型可以根據文字指令能生成長達1分鐘的首款視頻生成高清視頻,并且有一定的模型“現實模擬”能力,相比制作游戲的發布物理引擎,其上限要高得多,首款視頻生成下面帶來詳細介紹。模型
1.他們能訓練出這個模型的發布基礎是:找到了一種統一的用文本描述視頻材料的范式,得以讓大量的首款視頻生成視頻以及對應的描述材料去訓練模型,得到這個模型能力就是模型文本和視覺呈現之間的某種互相生成關系(能力),那如何得到大量帶有相應文本字幕的發布視頻呢?
他們應用了 DALL·E 3 中的重構字幕技術(原來是針對圖片的)到視頻。首先訓練一個高度描述性的首款視頻生成字幕生成器模型,然后使用它為訓練集中的模型所有視頻生成文本字幕。 可以想見,發布訓練及使用模型耗費的首款視頻生成算力驚人,所以不太可能在短期內大范圍開放;
2.大的模型框架是:擴散模型+時空補丁,基于深度學習的擴散模型,讓一個隨機噪聲分布(指向圖像的)轉變成有意義的圖像或視頻內容,而時空補丁,定義了一個時間序列,使畫面的的變化符合時間邏輯;
3.Sora 可以采樣寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有視頻。因為是直接生成而不是裁剪視頻,在取景,動態效果上也有一定優勢;
4.這個模型還有幾個出人意料但合理的能力:
a.它可以從一個時間點,向前或者向后去延伸視頻,也就是說以某個畫面為基點,生成這個時點之前的一段視頻或之后的一段視頻;
b.自如改變視頻的風格和環境;
c.通過插值方式自然的將兩個視頻連接起來;
d.這一點非常重要,就是這個模型涌現出了一定的“現實模擬”能力,在展示視頻中我們看到的不同的鏡頭運用,包括 3D畫面的一致性(比如同一物體因為鏡頭變化,呈現出的在視覺上保持形狀的一致),還包括現實物體的交互(比如要面包后面包上的咬痕)并非刻意設計,或者“建模”的結果,而是自然涌現的,這點我們在純語言模型上已經見識過了。
而在這個模型上面涌現出的能力,用文章中的原話來描述“是開發物理和數字世界以及生活在其中的物體、動物和人的強大模擬器的一條有前途的道路。”