美乳丰满人妻无码视频免费_国产成人亚洲影院在线_成在人线AV无码免费可以下载_国产乱子伦精品无码专区_日本内射

<nav id="4przq"><label id="4przq"></label></nav><style id="4przq"></style>

首頁> 資訊> 詳情

如何簡單高效地定制自己的文本作畫模型？

2023-01-02 16:27:39 來源：

強(qiáng)烈建議先閱讀：一文弄懂 Diffusion Model

1. 論文信息

標(biāo)題：Multi-Concept Customization of Text-to-Image Diffusion

作者：Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu.

【資料圖】

原文鏈接：https://arxiv.org/pdf/2212.04488.pdf

代碼鏈接：https://www.cs.cmu.edu/~custom-diffusion/

2. 引言

最近通過文本生成圖像的深度學(xué)習(xí)相關(guān)技術(shù)取得了非常大的進(jìn)展，2021已經(jīng)成為了圖像生成的一個(gè)新的milestone，諸如DALL-E和Stable diffusion這種模型都取得了長足的進(jìn)步，甚至達(dá)到了“出圈”的效果。通過簡單文本prompts，用戶能夠生成前所未有的質(zhì)量的圖像。這樣的模型可以生成各種各樣的對象、風(fēng)格和場景，并把它們進(jìn)行組合排序，這讓現(xiàn)有的圖像生成模型看上去是無所不能的。

但是，盡管這些模型具有多樣性和一些泛化能力，用戶經(jīng)常希望從他們自己的生活中合成特定的概念。例如，親人、朋友、寵物或個(gè)人物品和地點(diǎn)，這些都是非常有意義的concept，也和個(gè)人對于生成圖像的信息有對齊。由于這些概念天生就是個(gè)人的，因此在大規(guī)模的模型訓(xùn)練過程中很難出現(xiàn)。事后通過詳細(xì)的文字，來描述這種概念是非常不方便的，也無法保留足夠多的視覺細(xì)節(jié)來生成新的personal的concepts。這就需要模型具有一定的“定制”能力。也就是說如果給定少量用戶提供的圖像，我們能否用新概念（例如寵物狗或者“月亮門”，如圖所示）增強(qiáng)現(xiàn)有的文本到圖像擴(kuò)散模型？經(jīng)過微調(diào)的模型應(yīng)該能夠?qū)⑺鼈兣c現(xiàn)有概念進(jìn)行概括并生成新的變化。這帶來了幾個(gè)比較嚴(yán)峻的挑戰(zhàn)：

首先，模型傾向于遺忘現(xiàn)有概念的含義：例如，在添加“moon gate”這一concept的時(shí)候，“moon”的含義就會(huì)丟失。其次，由于stable diffusion這樣的網(wǎng)絡(luò)往往參數(shù)會(huì)超級多，所以在小數(shù)據(jù)上訓(xùn)練模型，容易造成對訓(xùn)練樣本進(jìn)行過擬合，而且采樣中變化也有限。此外，論文還關(guān)注了一個(gè)更具挑戰(zhàn)性的問題，即組group fine-tuning，即能夠超越單個(gè)個(gè)體concept的微調(diào)，并將多個(gè)概念組合在一起。學(xué)習(xí)多個(gè)新的concepts同時(shí)也是存在一定的挑戰(zhàn)的，比如 concept mixing以及concept omission。

在這項(xiàng)工作中，論文提出了一種fine-tuning技術(shù)，即文本到圖像擴(kuò)散模型的“定制擴(kuò)散”。我們的方法在計(jì)算和內(nèi)存方面都很有效。為了克服上述挑戰(zhàn)，新方法固定一小部分模型權(quán)重，即文本到潛在特征的key值映射在cross-attention layer中。fine-tuning這些足以更新模型的新concepts。為了防止模型喪失原來強(qiáng)大的表征能力，新方法僅僅使用一小組的圖像與目標(biāo)圖像類似的真實(shí)圖像進(jìn)行訓(xùn)練。我們還在微調(diào)期間引入data的augamation，這可以讓模型更快的收斂，并獲得更好的結(jié)果。論文提出的方法實(shí)驗(yàn)是構(gòu)建在Stable Diffusion之上，并對各種數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)，其中最少有四幅訓(xùn)練圖像。對于添加單個(gè)concept，新提出的方法顯示出比相似任務(wù)的作品和基線更好的文本對齊和視覺相似性。更重要的是，我們的方法可以有效地組成多個(gè)新concepts，而直接對不同的concepts進(jìn)行組合的方法則遇到困難，經(jīng)常會(huì)省略一個(gè)。最后，我們的方法只需要存儲(chǔ)一小部分參數(shù)（模型權(quán)重的3％），消耗的GPU memory非常有限，同時(shí)也減少了fine-tuning的時(shí)間。

3. 方法

總結(jié)來講，論文提出的方法，就是僅更新權(quán)重的一小部分，即模型的交叉注意力層。此外，由于目標(biāo)概念的訓(xùn)練樣本很少，所以使用一個(gè)真實(shí)圖像的正則化集，以防止過擬合。

對于Single-Concept Fine-tuning，給定一個(gè)預(yù)訓(xùn)練的text-to-image diffusion model，我們的目標(biāo)是在模型中加入一個(gè)新的concept，只要給定四張圖像和相應(yīng)的文本描述進(jìn)行訓(xùn)練。fine-tuning后的模型應(yīng)保留其先驗(yàn)知識，允許根據(jù)文本提示使用新概念生成新的圖像類型。這可能具有挑戰(zhàn)性，因?yàn)楦碌奈谋镜綀D像的映射可能很容易過擬合少數(shù)可用圖像。所以保證泛化性就非常有必要，也比較有挑戰(zhàn)。所以就僅僅fine-tuning新的K和V，而對于query，則保持不變，這樣就可以增加新概念的同時(shí)，保證模型的表征能力不受到太多的影響。優(yōu)化目標(biāo)還是diffusion的形式：

概括起來實(shí)際上非常簡單，就是訓(xùn)練一個(gè)k和v的矩陣，來擴(kuò)充維度，增加模型的表征能力，使其能生成更為豐富的圖像內(nèi)容。

而對于Multiple-Concept Compositional Fine-tuning，為了對多個(gè)概念進(jìn)行微調(diào)，我們將每個(gè)概念的訓(xùn)練數(shù)據(jù)集合并，并使用我們的方法將它們聯(lián)合訓(xùn)練。為了表示目標(biāo)概念，我們使用不同的修飾符的，并將它們與每個(gè)層的交叉注意關(guān)鍵和值矩陣一起初始化，并優(yōu)化它們。通過將權(quán)重更新限制為交叉注意key和value參數(shù)，與DreamBooth等方法相比，可以顯著更好地將兩個(gè)概念合并在一起。

由于我們的方法僅更新與文本特征相對應(yīng)的key和value投影矩陣，因此我們可以將它們合并，以允許使用多個(gè)微調(diào)概念生成。讓集合表示預(yù)訓(xùn)練模型中所有交叉注意層的key和value矩陣，并且表示添加概念的相應(yīng)更新矩陣。由于方法隨后的優(yōu)化適用于所有層和key矩陣，為了簡潔起見忽略key和value的上標(biāo)以及層。我們將合成目標(biāo)表述為以下約束最小二乘問題：

這里，是維度為的文本特征。這些是個(gè)跨越所有個(gè)concept的目標(biāo)詞.

可以發(fā)現(xiàn)，增加約束還是讓模型具有更強(qiáng)的表征能力的。最下面一行才和真正的門比較相似，同時(shí)生成的月亮也非常合理。

4. 實(shí)驗(yàn)

給定一個(gè)新concepts的圖像如左側(cè)顯示的目標(biāo)圖像，提出的方法可以在看不見的上下文和藝術(shù)風(fēng)格中生成帶有該概念的圖像。第一行：代表水彩畫藝術(shù)風(fēng)格中的概念。方法還可以在背景中生成山脈，而 DreamBooth 和 Textual Inversion 忽略了這一點(diǎn)。第二行：改變背景場景。我們的方法和 DreamBooth 的表現(xiàn)與 Textual Inversion 相似且更好。第三行：添加另一個(gè)對象，例如帶有目標(biāo)桌子的橙色沙發(fā)。新的方法成功地添加了另一個(gè)對象。第四行：改變對象屬性，如花瓣的顏色。第五行：用太陽鏡裝飾私人寵物貓。我們的方法比基線更好地保留了視覺相似性，同時(shí)僅更改花瓣顏色或?yàn)樨執(zhí)砑犹栫R。

可以發(fā)現(xiàn)Multiple-Concept Compositional Fine-tuning的效果也非常驚艷。

風(fēng)格遷移的效果也不錯(cuò)。

定量指標(biāo)也有比較有競爭力的表現(xiàn)：

5. 結(jié)論

論文提出了一種基于new concepts的text-to-image生成模型的fine-tuning方法。只需使用一些有限的圖像示例，新方法就能一高效的方法生成微調(diào)概念的新樣本同時(shí)保留原有的生成能力。而且，我們只需要保存一小部分模型權(quán)重。此外，方法可以連貫地在同一場景中組合多個(gè)新概念，這是之前的方法所缺少的能力。

關(guān)鍵詞：一個(gè)新的訓(xùn)練樣本藝術(shù)風(fēng)格

如何簡單高效地定制自己的文本作畫模型？

強(qiáng)烈建議先閱讀：一文弄懂DiffusionModel1 論文信息標(biāo)題：Multi-ConceptCustomizationofText-to-Ima

2023-01-02 16:27:39

全球球精選！種蛋能保存15天嗎?為什么?

種蛋該如何去完整的保存種蛋呢？種蛋產(chǎn)出母體外，胚胎停止發(fā)育，隨后在一定的外界環(huán)境刺激下胚胎又開始發(fā)育，胚胎發(fā)育的臨界溫度為23。9°C。

2023-01-02 00:28:38

蚊帳如何固定到床上?

蚊帳固定在床上要用蚊帳支撐架。買來蚊帳支撐架，用支撐桿把蚊帳上方的四個(gè)邊穿起來，同時(shí)把立桿固定在床的四個(gè)角上。然后和穿蚊帳的桿子連接

2023-01-01 08:29:24

避稅和偷稅漏稅什么區(qū)別|全球熱點(diǎn)評

1、避稅是合法的，是不違法的，這是與非法的偷稅漏稅根本的區(qū)別。2、避稅的目的是通過避免繳稅、少繳稅和推遲繳稅，使稅收負(fù)擔(dān)最小化;偷稅漏稅

2022-12-31 16:22:22

中證協(xié)：四方面修訂證券期貨科學(xué)技術(shù)獎(jiǎng)勵(lì)管理辦法|環(huán)球觀點(diǎn)

據(jù)中證協(xié)官網(wǎng)12月30日消息，為貫徹落實(shí)《證券期貨業(yè)科技發(fā)展“十四五”規(guī)劃》相關(guān)要求，滿足新時(shí)代科學(xué)技術(shù)促進(jìn)證券期貨業(yè)發(fā)展的新需求，中證

2022-12-30 22:55:39

知名老戲骨“藏妻”28年，突然高調(diào)秀恩愛，妻子首度曝光：難怪他要“拒絕”鞏俐！

本期主播丨楊槍槍近日，電視劇《那山那?！窡岵?，老戲骨何政軍重回大眾視野。何政軍是誰？他是《亮劍》里坦誠磊落的趙偉，是《覺醒年代》中堅(jiān)

2022-12-30 18:56:39

43歲林志玲大膽著裝T臺秀讓人驚艷但是襪子才是最大亮點(diǎn)|精選

林志玲以其高顏值與完美的身材，成為了廣大宅男們的心中的女神。如今雖然已經(jīng)43歲，但是歲月依舊沒有在她身上留下任何痕跡，如今的身材和臉蛋

2022-12-30 15:56:32

港股異動(dòng) | 新高教集團(tuán)漲5.7% 連續(xù)兩天回購股份|當(dāng)前熱議

格隆匯12月30日丨新高教集團(tuán)股價(jià)持續(xù)拉升，現(xiàn)報(bào)3 72港元，漲幅5 7%，總市值58 12億港元。公司12月28日耗資359 16萬港元回購100萬股，29日再度

2022-12-30 10:43:14

博時(shí)全球中國教育(QDII-ETF)凈值下跌5.09% 請保持關(guān)注

金融界基金12月30日訊博時(shí)全球中國教育(QDII-ETF)基金12月28日下跌4 71%，現(xiàn)價(jià)0 526元，成交11660 95萬元。當(dāng)前本基金場外凈值為0

2022-12-30 06:54:12

銅牛信息: 會(huì)計(jì)師事務(wù)所選聘辦法

銅牛信息:會(huì)計(jì)師事務(wù)所選聘辦法

2022-12-29 20:19:17

國防部：中方取消中美兩軍三項(xiàng)交往活動(dòng)是針對美方的必要反制

12月29日下午，國防部舉行例行記者會(huì)，國防部新聞局副局長、國防部新聞發(fā)言人譚克非大校答記者問。記者：據(jù)報(bào)道，美防長日前在美中兩國防長會(huì)

2022-12-29 18:22:42

流動(dòng)性退潮引發(fā)幣災(zāi) 比特幣“數(shù)字黃金”神話黯淡-每日時(shí)訊

流動(dòng)性退潮引發(fā)幣災(zāi)比特幣“數(shù)字黃金”神話黯淡

2022-12-29 16:08:33

深圳燃?xì)?2月28日獲滬股通增持120.34萬股

12月28日，深圳燃?xì)猥@滬股通增持120 34萬股，已連續(xù)4日獲滬股通增持，共計(jì)163 38萬股

2022-12-29 14:16:47

大為股份：擬建設(shè)含鋰礦產(chǎn)資源綜合利用及鋰電池產(chǎn)業(yè)鏈項(xiàng)目等-全球微資訊

大為股份（002213）公告，公司擬在湖南省郴州市桂陽縣建設(shè)含鋰礦產(chǎn)資源綜合利用及鋰電池產(chǎn)業(yè)鏈項(xiàng)目、新能源專用車基地項(xiàng)目。擬定項(xiàng)目總投資約

2022-12-29 11:59:34

最大CLIP！LAION發(fā)布CLIP的擴(kuò)增定律

點(diǎn)藍(lán)色字關(guān)注“機(jī)器學(xué)習(xí)算法工程師”設(shè)為星標(biāo)，干貨直達(dá)！近日，LAION等機(jī)構(gòu)在Reproduciblescalinglawsforcontrastive

2022-12-29 10:29:43

22盛京銀行CD187今日發(fā)布發(fā)行公告|即時(shí)

22盛京銀行CD187發(fā)布發(fā)行公告

2022-12-28 18:09:02

天天簡訊:2023你好說說 2023你好說說推薦

2022，再見，2023，你好，時(shí)間不停，追隨你的腳步便不會(huì)停。當(dāng)我們什么都做過了、還剩下什么可以值得我們留戀。再見2022，你好2023。人生是一

2022-12-28 15:28:36

豐收是最好的論文大學(xué)青年教師下田助糧食增產(chǎn)-每日訊息

這個(gè)冬天，眉山職業(yè)技術(shù)學(xué)院農(nóng)業(yè)教研室主任魏文武正在挑戰(zhàn)一個(gè)新紀(jì)錄。近年來，魏文武團(tuán)隊(duì)的多項(xiàng)生產(chǎn)技術(shù)得到推廣應(yīng)用，累計(jì)推廣面積587 20萬

2022-12-28 11:06:56