日韩一区二区三区在线免费观看-开心久久婷婷综合中文字幕-欧美激情91-久久国产福利-欧美日韩日本国产亚洲在线-国产精品极品国产中出

首頁 > 新聞 > 智能 > 正文

【快播報】可組合擴散模型主打 Any-to-Any 生成:文本、圖像、視頻、音頻全都行

2023-05-23 14:21:26來源:ZAKER科技  

機器之心報道

編輯:陳萍、杜偉


(資料圖片僅供參考)

一種模型統一多種模態實現了。

給定一句話,然后讓你想象這句話在現實場景中的樣子,對于人類來說這項任務過于簡單,比如「一輛進站的火車」,人類可以進行天馬行空的想象火車進站時的樣子,但對模型來說,這可不是一件容易的事,涉及模態的轉換,模型需要理解這句話的含義,然后根據這句話生成應景的視頻、音頻,難度還是相當大的。

現在,來自北卡羅來納大學教堂山分校、微軟的研究者提出的可組合擴散(Composable Diffusion,簡稱 CoDi)模型很好的解決了這個問題。比如,前面提到的「一輛進站的火車」,CoDi 根據這句話生成的效果如下:

與現有的生成式人工智能系統不同,CoDi 可以并行生成多種模態,其輸入不限于文本或圖像等模態。

眾所周知,隨著技術的發展,大模型的能力范圍已經不僅僅局限于一種模態的生成,而是從一種模態生成另一種模態正在變成現實,如我們常見的文本到文本的生成,文本到圖像的生成,以及文本到音頻的生成。

然而,單一模態或一對一模態在應用到現實世界中會受到限制,因為現實世界是多模態的,然而將多種模態串聯在一起難度較大。人們迫切期待開發出一種全面而具有多功能的模型,這種模型可以從一組輸入條件中生成任意組合的模態,無縫地整合來自各種信息源的信息,從而實現強大的人機交互體驗(例如,同時生成連貫的視頻、音頻和文本描述)。

CoDi 就是為了實現這一目標而進行的,可以說這是第一個能夠同時處理和生成任意組合模態的模型。

論文主頁:https://codi-gen.github.io/研究者表示 CoDi 不僅可以從單模態到單模態的生成,還可以接收多個條件輸入,以及多模態聯合生成。舉例來說,在給定文本 prompt 的情況下生成同步的視頻和音頻;或者在給定圖像和音頻 prompt 的情況下生成視頻。

下面我們用具體的示例進行展示。首先考察 CoDi 生成圖像的能力。

CoDi 可以將文本 + 音頻作為輸入,然后生成一張圖片:

在這個示例中,文本 prompt 大致為:油畫,恐怖畫風,craig mullins 風格。

除了文本 + 音頻,CoDi 還可以以文本 + 圖像作為輸入,然后生成一張圖片:

在這個示例中,輸入 prompt 為:花瓶里的花朵,靜物畫,Albert Williams 風格,以及一張圖片。

除此以外,CoDi 還能以三種模態(文本 + 音頻 + 圖片)作為輸入,生成符合要求的圖片。

接下來是展示 CoDi 視頻生成能力。給模型一句 prompt(坐在咖啡桌旁吃東西)+ 熊貓圖片,之后一只活靈活現的大熊貓就動了起來:

此外,CoDi 還能輸入單個或多個 prompt,包括視頻,圖像,文本或音頻,以生成多個對齊輸出。

在這個示例中,prompt 包括三部分(文本 + 圖像 + 音頻):文本 prompt 為滑板上的泰迪熊,4k,高分辨率。圖像是一個繁華的街道。語音輸入為嘩嘩的雨聲:

生成的視頻如下:

不僅如此,CoDi 還能根據一句話生成視頻和音頻,如:空中綻放的煙花。

視頻 + 音頻效果如下:

了解更多展示效果,請參考論文主頁。

方法概覽

潛在擴散模型

擴散模型(DM)是這樣一類生成式模型,它們通過模擬信息隨時間的擴散來學習數據分布 p ( x ) 。在訓練期間,隨機噪聲被迭代地添加到 x,同時模型學習對示例進行去噪。對于推理,擴散模型對從簡單分布(如高斯分布)中采樣的數據點進行去噪。潛在擴散(LDM)學習對應于 x 的潛在變量 z 的分布。通過降低數據維數來顯著降低計算成本。

可組合多模態調節

為了使自己的模型能夠以任何 input/prompt 模態的組合進行調節,研究者對齊文本、圖像、視頻和音頻的 prompt 編碼器(分別用 C_t、C_i、C_v 和 C_a 表示),將來自任何模態的輸入映射到同一個空間。然后通過對每個模態的表示進行插值來實現多模態調節。通過對齊嵌入的簡單加權插值,他們利用單條件(即僅有一個輸入)訓練的模型來執行零樣本多條件(即有多個輸入)。整個過程如下圖 2 ( a ) ( 2 ) 所示。

不過以組合方式同時對四種 prompt 編碼器進行優化具有非常大的計算量,因此需要 O ( n^2 ) 對。此外對于某些雙模態,對齊良好的配對數據集有限或不可用,例如圖像音頻對。

為了解決這些問題,研究者提出了一種簡單有效的方法「橋接對齊(Bridging Alignment)」,以高效地對齊編碼器。如下圖 2 ( a ) ( 1 ) 所示,他們選擇文本模態作為「橋接」模態,因為該模態普遍存在于配對數據中,例如文本圖像對、文本視頻對和文本音頻對。研究者從預訓練文本圖像配對編碼器 CLIP 開始,然后使用對比學習在音頻文本和視頻文本配對數據集上訓練音頻和視頻 prompt 編碼器,同時凍結文本和圖像編碼器權重。

如此一來,所有四種模態在特征空間中對齊。CoDi 可以有效地利用和組合任何模態組合中的互補信息,以生成更準確和全面的輸出。生成質量的高低不受 prompt 模態數量的影響。研究者繼續使用橋接對齊來對齊具有不同模態的 LDM 的潛在空間,以實現聯合多模態生成。

可組合擴散

訓練一個端到端的 anything-to-anything 模型需要廣泛學習不同的數據資源,并且需要保持所有合成流的生成質量。為了應對這些挑戰,CoDi 被設計為可組合和集成的,允許獨立構建特定于單一模態的模型,之后實現順利集成。具體地,研究者首先獨立訓練圖像、視頻、音頻和文本 LDM,然后這些擴散模型通過一種新機制「潛在對齊」來有效地學習跨模態的聯合多模態生成。

先看圖像擴散模型。圖像 LDM 遵循與 Stable Diffusion 相同的結構,并用相同的權重進行初始化。重用該權重將在大型高質量圖像數據集上訓練的 Stable Diffusion 的知識和超高生成保真度遷移到 CoDi。

再看視頻擴散模型。為了對視頻時間屬性進行建模的同時保持視頻生成質量,研究者通過擴展具有時間模塊的圖像擴散器來構建視頻擴散器。具體地,他們在殘差塊之前插入偽時間注意力。不過研究者認為偽時間注意力只能將像素(高度和寬度維數)展平為批維數來使視頻幀在全局范圍內彼此關注,從而導致局部像素之間跨幀交互的缺失。

接著是音頻擴散模型。為了在聯合生成中實現靈活的跨模態注意力,音頻擴散器在設計時具有與視覺擴散器相似的架構,其中梅爾頻譜圖可以自然地被視為具有 1 個通道的圖像。研究者使用 VAE 編碼器將音頻的梅爾頻譜圖編碼為壓縮的潛在空間。在音頻合成中,VAW 解碼器將潛在變量映射到梅爾頻譜圖,并且聲碼器從梅爾頻譜圖生成音頻樣本。研究者使用了 [ 33 ] 中的音頻 VAE 和 [ 27 ] 的聲碼器。

最后是文本擴散模型。文本 LDM 中的 VAE 是 OPTIMUS [ 29 ] ,它的編解碼器分別是 [ 9 ] 和 GPT-2 [ 39 ] 。對于去噪 UNet,與圖像擴散不同的是,殘差塊中的 2D 卷積被 1D 卷積取代。

基于潛在對齊的聯合多模態生成

最后一步是在聯合生成中啟用擴散流之間的交叉注意力,即同時生成兩種或多種模態。這通過向 UNet _ θ 添加跨模態注意力子層來實現,詳見圖 2 ( b ) ( 2 ) 。

此外在圖 2 ( b ) ( 3 ) 中,研究者在訓練聯合生成時也遵循了與「橋接對齊」類似的設計,即(1)首先訓練圖像和文本擴散器中的交叉注意力權重以及它們在文本圖像配對數據上的環境編碼器 V。(2)凍結文本擴散器的權重,并在文本音頻配對數據上訓練環境編碼器和音頻擴散器的交叉注意力權重。(3)凍結音頻擴散器及其環境編碼器,并在音頻視頻配對數據上訓練視頻模態的聯合生成。

從結果來看,盡管只接受了三個配對聯合生成任務(文本 + 音頻、文本 + 圖像和視頻 + 音頻)的訓練,但 CoDi 能夠同時生成訓練中未見過的各種模態組合,例如下圖 5 中的聯合圖像 - 文本 - 音頻生成。

實驗結果

表 1 提供了數據集、任務、樣本數量和領域的概覽信息。

下圖 3 展示了各種單模態到單模態的生成示例演示。CoDi 在音頻字幕和音頻生成方面實現了新 SOTA,如表 4 和表 6 所示。在圖像和視頻生成方面,CoDi 的表現與最先進的技術相媲美,如表 2 和表 3 所示。如表 8 所示,CoDi 在給定的輸入模態分組中實現了高質量圖像生成。此外,表 9 表明,CoDi 在給定各種輸入模態組的情況下與真值相似。了解更多內容,請參考原論文。

THE END

轉載請聯系本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀

国产一区毛片| 日韩动漫一区| 久久国内精品视频| 国产在线日韩精品| 台湾亚洲精品一区二区tv| 亚洲精品一区二区妖精| 石原莉奈一区二区三区在线观看| 国产精品久久亚洲不卡| 国产精选久久| 黑人操亚洲人| 欧美aa免费在线| 国产成人久久| 欧美日韩三级电影在线| 日本综合视频| 中文字幕av一区二区三区四区| 成人aaaa| 开心久久婷婷综合中文字幕| 日本一区精品视频| 中文亚洲欧美| 麻豆精品视频在线观看视频| 久久97久久97精品免视看秋霞 | 国产 日韩 欧美一区| 欧美日韩亚洲一区二区三区在线| 老牛国内精品亚洲成av人片| 日韩电影在线视频| 日韩经典中文字幕一区| 国产毛片一区| 国产精品va视频| 午夜久久久久| 久久中文字幕导航| 伊人蜜桃色噜噜激情综合| 国产日本精品| 国内精品99| 麻豆成人久久精品二区三区红| 久久亚洲精品中文字幕蜜潮电影| yy6080久久伦理一区二区| 日韩精品一区二区三区免费观看| 日韩视频网站在线观看| 超碰cao国产精品一区二区| 日本在线电影一区二区三区| 日韩精品导航| 欧美国产一区二区三区激情无套| 亚洲欧洲免费| 成人欧美一区二区三区的电影| 亚洲伊人影院| 成人精品国产亚洲| 日韩在线精品强乱中文字幕| 性色一区二区三区| 亚洲国产午夜| 不卡av一区二区| 三级久久三级久久| 亚洲精品一区二区妖精| 欧美激情1区2区3区| 一本色道久久综合亚洲精品不| 国产激情一区| 国产日韩电影| 99视频精品视频高清免费| 麻豆精品在线看| 在线亚洲免费| 日韩av一二三| 丝袜美腿诱惑一区二区三区| 久久精品亚洲人成影院| 亚洲另类视频| 日韩.com| 久久精品九九| 高清精品久久| 99精品免费| 久久综合给合| 国产精品久久久久av电视剧| 视频小说一区二区| 欧美日本一区| bbw在线视频| 1024日韩| 日韩在线你懂的| 久久精品国产在热久久| 免费看亚洲片| 99久久激情| 日韩av影院| 欧美激情三区| 国产精品久久占久久| 久久视频国产| 久久久久久久久久久久电影| 卡一卡二国产精品| 蜜桃视频在线一区| 九九综合久久| 国产精品调教| 欧美日韩国产一区二区在线观看| 色老太综合网| 老司机久久99久久精品播放免费| 国产精品99久久免费观看| 亚洲人成网站在线在线观看| 日韩av首页| 日韩av片子| 欧美大人香蕉在线| 精品日韩一区| 精品网站999| 综合久草视频| 日日嗨av一区二区三区四区| 欧美成人黑人| 蜜臀av一区二区在线观看| 欧美先锋资源| 精品久久久亚洲| 国产欧美视频在线| 亚洲色图插插| 一区二区三区福利| 日韩中文影院| 久久久久久夜| 亚洲欧美日韩精品一区二区| 亚洲第一区色| 欧美a大片欧美片| 果冻天美麻豆一区二区国产| 国产成人精品三级高清久久91| 日日摸夜夜添夜夜添精品视频| 青娱乐极品盛宴一区二区| 成人激情视频| 首页国产欧美久久| 夜夜嗨av一区二区三区网站四季av| 久久免费黄色| 嫩草国产精品入口| 麻豆成人入口| 久久久蜜桃一区二区人| 高清一区二区三区| 永久免费精品视频| 日韩中文字幕一区二区高清99| 国产成人黄色| 综合色就爱涩涩涩综合婷婷| 国产成人久久| 亚洲天堂日韩在线| 欧美美女在线观看| 最新亚洲精品| 日韩av成人高清| 精品视频一区二区三区| 精品国产乱码久久久久久樱花| 精品久久亚洲| 视频亚洲一区二区| 91亚洲无吗| 欧美成人基地| 亚洲一级影院| 99国产精品99久久久久久粉嫩| 五月激情综合| 国产亚洲综合精品| 免费亚洲电影在线| 亚洲人成午夜免电影费观看| 成人亚洲欧美| 久久亚洲精品中文字幕| 青草av.久久免费一区| 在线观看视频日韩| 国产成人精品免费视| 亚洲婷婷免费| 最近国产精品视频| 精品午夜视频| 红杏aⅴ成人免费视频| 精品一区不卡| 午夜精品婷婷| 国产不卡人人| 日本综合视频| 欧美精品福利| 亚洲视频一起| 亚洲成人精品| 亚洲少妇一区| 日韩欧美二区| 麻豆国产欧美日韩综合精品二区| 亚洲欧洲专区| 欧美日韩网站| 日韩视频一区| 日韩精品久久| 久久中文字幕导航| 蜜桃精品视频| 自由日本语亚洲人高潮| 欧美韩国日本在线观看| 久久一区激情| 国产一区二区在线| 久久狠狠婷婷| 国产精品x453.com| 美女尤物国产一区| 国产一区国产二区国产三区| 精品国内自产拍在线观看视频| 最新国产拍偷乱拍精品| 亚洲涩涩在线| 欧美一级大片在线视频| 色婷婷精品视频| 免费高清在线一区| 美女一区二区视频| 99热这里只有精品首页| 最新成人av网站| 九色成人搞黄网站| 亚洲第一福利社区| 亚洲精彩视频| 成人国产一区二区三区精品麻豆| 国产高清视频一区二区| 一区二区三区视频免费观看| 成人av观看| 国产亚洲字幕| 天天操综合网| 国产乱子精品一区二区在线观看| 日产国产高清一区二区三区 | 亚洲少妇在线| 国产精品久久777777毛茸茸| 一区二区三区在线免费看| 国产精品五区|