本發(fā)明涉及圖像生成領(lǐng)域,具體的說是一種基于擴(kuò)散模型的布局可控圖像個性化生成方法。
背景技術(shù):
1、近年來,圖像生成技術(shù)得益于擴(kuò)散模型的興起而得到了飛速發(fā)展,并在產(chǎn)品設(shè)計、藝術(shù)創(chuàng)作、電子商務(wù)等多個領(lǐng)域有著廣泛的應(yīng)用。與傳統(tǒng)文生圖任務(wù)相比,主體驅(qū)動的圖像個性化生成更具挑戰(zhàn)性,除了需要和文本保持一致生成高質(zhì)量的圖像,還需要保持參考圖像中參考主體的細(xì)節(jié)特征。
2、經(jīng)典的圖像個性化生成主要通過學(xué)習(xí)和參考概念綁定的文本嵌入的基于重建的方法或通過設(shè)計一個編碼器提取和文本融合的視覺表征的基于編碼器的方法。但前者往往需要冗長的微調(diào)時間,不能泛化到未見過的例子上實(shí)現(xiàn)免微調(diào)測試,后者往往會忽略細(xì)粒度的主體細(xì)節(jié),在零樣本生成場景下產(chǎn)生次優(yōu)的生成表現(xiàn)。
3、雖然圖像個性化生成技術(shù)已取得顯著進(jìn)展,但在更細(xì)粒度的控制包括主體細(xì)節(jié)保持和位置可控性上仍存在一系列未解決的問題與挑戰(zhàn),特別是布局可控的圖像個性化生成,尚未得到充分的探索,極大限制了實(shí)際應(yīng)用場景下的潛力和自由度。這些問題和挑戰(zhàn)為進(jìn)一步的研究提供了方向。
技術(shù)實(shí)現(xiàn)思路
1、針對上述現(xiàn)有技術(shù)存在的不足之處,本發(fā)明提出了一種基于擴(kuò)散模型的布局可控圖像個性化生成方法,旨在提升參考主體的細(xì)節(jié)保真度和增添布局可控性,從而能生成布局可控、細(xì)節(jié)保真的高度定制化圖像。
2、本發(fā)明為達(dá)到上述發(fā)明目的,采用如下技術(shù)方案:
3、本發(fā)明一種基于擴(kuò)散模型的布局可控圖像個性化生成方法的特點(diǎn)在于,包括以下步驟:
4、步驟1、獲取視頻數(shù)據(jù)集和圖像數(shù)據(jù)集,其中,表示第個視頻幀,表示視頻幀的總數(shù);表示第j張圖像,n表示圖像的總數(shù);
5、分別對和進(jìn)行預(yù)處理,相應(yīng)得到對應(yīng)的參考主體邊界框、參考主體標(biāo)簽、文本描述、實(shí)例分割圖及掩碼以及對應(yīng)的參考主體邊界框、參考主體標(biāo)簽、文本描述、實(shí)例分割圖及掩碼;
6、步驟2、構(gòu)建基于擴(kuò)散模型的位置可控個性化生成網(wǎng)絡(luò),包含:動態(tài)自適應(yīng)視覺編碼器、靜態(tài)細(xì)節(jié)提煉模塊、位置感知模塊、預(yù)訓(xùn)練后的變分自編碼器以及適配器;根據(jù)抽樣概率,確定網(wǎng)絡(luò)的輸入數(shù)據(jù)為或?yàn)椋?/p>
7、步驟2.1、所述動態(tài)自適應(yīng)視覺編碼器對或進(jìn)行處理,相應(yīng)得到的參考主體標(biāo)簽對應(yīng)的動態(tài)特征或的參考主體標(biāo)簽對應(yīng)的動態(tài)特征;
8、步驟2.2、所述靜態(tài)細(xì)節(jié)提煉模塊對或進(jìn)行處理,相應(yīng)得到的參考主體標(biāo)簽對應(yīng)的靜態(tài)特征或的參考主體標(biāo)簽對應(yīng)的靜態(tài)特征;
9、步驟2.3、所述位置感知模塊對或進(jìn)行處理,相應(yīng)得到的參考主體標(biāo)簽對應(yīng)的位置標(biāo)記或的參考主體標(biāo)簽對應(yīng)的位置標(biāo)記;
10、步驟2.4、所述預(yù)訓(xùn)練后的變分自編碼器對或進(jìn)行處理,相應(yīng)得到的隱變量特征或的隱變量特征;
11、步驟2.5、所述適配器對或進(jìn)行處理,相應(yīng)得到的動態(tài)隱變量特征或的動態(tài)隱變量特征;
12、步驟3、訓(xùn)練階段:
13、利用式(1)構(gòu)建在時間步t的損失函數(shù)或利用式(2)構(gòu)建在時間步t的損失函數(shù),并用于對動態(tài)自適應(yīng)視覺編碼器、靜態(tài)細(xì)節(jié)提煉模塊中的線性投影層、位置感知模塊中的多層感知機(jī)以及適配器進(jìn)行訓(xùn)練,直至損失函數(shù)或收斂為止,得到訓(xùn)練后的動態(tài)自適應(yīng)視覺編碼器、靜態(tài)細(xì)節(jié)提煉模塊、位置感知模塊、適配器并與預(yù)訓(xùn)練后的變分自編碼器組成訓(xùn)練后的位置可控個性化生成模型;
14、??(1)
15、???(2)
16、式(1)和式(2)中,是網(wǎng)絡(luò)預(yù)測的噪聲,是服從標(biāo)準(zhǔn)高斯分布的高斯噪聲,表示時間步;為單位矩陣;
17、步驟4、推理階段:
18、步驟4.1、所述預(yù)訓(xùn)練后的變分自編碼器對高斯噪聲進(jìn)行處理,得到時間步t的隱變量特征并與給定參考圖像、邊界框、文本描述p一起輸入訓(xùn)練后的位置可控個性化生成模型中進(jìn)行處理,得到含有位置信息和參考圖像特征的動態(tài)隱變量特征后,與給定的含有s個參考主體文本標(biāo)記的文本描述p一起進(jìn)行交叉注意力計算,得到時間步t的交叉注意力圖;將邊界框歸一化到與同樣大小后,得到歸一化后的邊界框,從而利用與一起構(gòu)建時間步t的位置損失函數(shù);
19、步驟4.2、將轉(zhuǎn)換為邊界框掩碼,將的四個角點(diǎn)轉(zhuǎn)換為相應(yīng)的角點(diǎn)掩碼并構(gòu)成角點(diǎn)掩碼集合,從而利用、與一起構(gòu)建時間步t的尺度損失函數(shù);
20、步驟4.3、利用式(3)得到邊界框在時間步t的約束損失函數(shù):
21、?(3)
22、利用式(4)對進(jìn)行最小化,得到時間步t更新后的隱變量特征:
23、?(4)
24、式(4)中,表示時間步t的步長;為一個尺度因子;表示對的梯度;
25、步驟4.4、輸入預(yù)訓(xùn)練后的變分自編碼器中進(jìn)行解碼處理,得到布局可控的定制圖像。
26、本發(fā)明所述的基于擴(kuò)散模型的布局可控圖像個性化生成方法的特點(diǎn)也在于,所述步驟1中的預(yù)處理包括以下步驟:
27、步驟1.1、利用圖像描述模型對和進(jìn)行處理,獲得的文本描述和的文本描述;
28、步驟1.2、利用命名實(shí)體識別模型從中提取中所有參考主體的標(biāo)簽,記作,其中,表示第i個視頻幀中第k個參考主體的標(biāo)簽,n表示第i個視頻幀中參考主體的總數(shù);
29、利用命名實(shí)體識別模型從中提取中所有參考主體標(biāo)簽,記作,其中,表示第j張圖像中第個參考主體標(biāo)簽,表示第j張圖像中參考主體的總數(shù);
30、步驟1.3、利用目標(biāo)檢測模型對和進(jìn)行處理,得到第i個視頻幀中所有參考主體的邊界框,其中,表示第i個視頻幀中第k個參考主體的邊界框,且與對應(yīng);
31、利用目標(biāo)檢測模型對和中進(jìn)行處理,得到中所有參考主體的邊界框,其中,表示第j張圖像中第個參考主體的邊界框,且與對應(yīng);
32、步驟1.4、將和第k個參考主體的邊界框輸入分割模型中進(jìn)行處理,得到第i個視頻幀中第k個參考主體對應(yīng)的實(shí)例分割圖和掩碼,且與對應(yīng);
33、將和第個參考主體的邊界框輸入分割模型中進(jìn)行處理,得到第j個圖像中第個參考主體對應(yīng)的實(shí)例分割圖和掩碼,且與對應(yīng)。
34、進(jìn)一步的,所述步驟2.1中的動態(tài)自適應(yīng)視覺編碼器包含:預(yù)訓(xùn)練的視覺編碼器、感知重采樣器和第一預(yù)訓(xùn)練的文本編碼器;
35、當(dāng)輸入數(shù)據(jù)為時,執(zhí)行步驟2.1.1-步驟2.1.4;
36、當(dāng)輸入數(shù)據(jù)為時,執(zhí)行步驟2.1.5-步驟2.1.8;
37、步驟2.1.1、在中對進(jìn)行相似幀匹配,得到中匹配的相似幀并輸入分割模型中進(jìn)行處理,得到的實(shí)例分割圖;其中,表示中對應(yīng)的分割圖;
38、步驟2.1.2、將輸入預(yù)訓(xùn)練的視覺編碼器中進(jìn)行特征提取,得到的k個參考主體標(biāo)簽對應(yīng)的細(xì)粒度視覺特征;其中,表示中對應(yīng)的細(xì)粒度視覺特征;
39、步驟2.1.3、設(shè)置待學(xué)習(xí)的查詢向量為q,將分別作為鍵向量和值向量,一起輸入所述感知重采樣器中進(jìn)行注意力計算,得到對應(yīng)的參考主體動態(tài)特征;其中,表示中對應(yīng)的動態(tài)特征;
40、步驟2.1.4、將送入第一預(yù)訓(xùn)練的文本編碼器中進(jìn)行編碼,得到的文本描述的文本特征;
41、步驟2.1.5、對進(jìn)行數(shù)據(jù)增強(qiáng)后,得到第j個增強(qiáng)圖像并輸入分割模型中進(jìn)行處理,得到的實(shí)例分割圖;其中,表示中對應(yīng)的分割圖;
42、步驟2.1.6、將輸入預(yù)訓(xùn)練的視覺編碼器中進(jìn)行特征提取,得到的個參考主體標(biāo)簽對應(yīng)的細(xì)粒度視覺特征;其中,表示中對應(yīng)的細(xì)粒度視覺特征;
43、步驟2.1.7、設(shè)置待學(xué)習(xí)的查詢向量q,將分別作為鍵向量和值向量后,一起輸入感知重采樣器中進(jìn)行注意力計算,得到對應(yīng)的參考主體動態(tài)特征;其中,表示中對應(yīng)的動態(tài)特征;
44、步驟2.1.8、將送入第一預(yù)訓(xùn)練的文本編碼器中進(jìn)行編碼,得到的文本描述的文本特征。
45、進(jìn)一步的,所述步驟2.2中的靜態(tài)細(xì)節(jié)提煉模塊包含:預(yù)訓(xùn)練的unet網(wǎng)絡(luò)和線性投影層;
46、當(dāng)輸入數(shù)據(jù)為時,執(zhí)行步驟2.2.1-步驟2.2.2;
47、當(dāng)輸入數(shù)據(jù)為時,按照步驟2.2.1到2.2.2的過程,對和進(jìn)行處理,得到中對應(yīng)的靜態(tài)特征;其中,表示中對應(yīng)的靜態(tài)特征;
48、步驟2.2.1、將和輸入預(yù)訓(xùn)練的unet網(wǎng)絡(luò)中的自注意力層進(jìn)行計算,得到對應(yīng)的自注意力特征;其中,表示中對應(yīng)的自注意力特征;
49、步驟2.2.2、將與相乘,再輸入線性投影層中進(jìn)行處理,得到中對應(yīng)的靜態(tài)特征;其中,表示中對應(yīng)的靜態(tài)特征;
50、進(jìn)一步的,所述步驟2.3中的位置感知模塊包含:第二預(yù)訓(xùn)練的文本編碼器、傅里葉編碼層和多層感知機(jī);
51、當(dāng)輸入數(shù)據(jù)為時,執(zhí)行步驟2.3.1-步驟2.3.5;
52、當(dāng)輸入數(shù)據(jù)為時,按照步驟2.3.1-步驟2.3.5的過程對對應(yīng)的,,進(jìn)行處理,得到中的位置標(biāo)記;
53、步驟2.3.1、將的輸入第二預(yù)訓(xùn)練的文本編碼器中進(jìn)行處理,得到的文本嵌入特征,其中,表示對應(yīng)的文本嵌入特征;
54、步驟2.3.2、將對應(yīng)的邊界框輸入傅里葉編碼層中進(jìn)行編碼,得到編碼后的位置信息;其中,表示對應(yīng)的位置信息;
55、步驟2.3.3、將和在特征維度上拼接后,輸入所述多層感知機(jī)中進(jìn)行編碼,得到對應(yīng)的文本位置標(biāo)記,從而得到中的文本位置標(biāo)記;
56、步驟2.3.4、將和在特征維度上拼接后,輸入所述多層感知機(jī)中進(jìn)行編碼,得到對應(yīng)的圖像位置標(biāo)記,從而得到中的圖像位置標(biāo)記;
57、步驟2.3.5、利用式(5)得到中的位置標(biāo)記:
58、?(5)
59、式(5)中,表示拼接操作,表示多層感知機(jī)。
60、進(jìn)一步的,所述步驟2.5中的適配器包含:靜態(tài)交叉注意力層、門控自注意力層、動態(tài)交叉注意力層;
61、當(dāng)輸入數(shù)據(jù)為時,執(zhí)行步驟2.5.1-步驟2.5.3;
62、當(dāng)輸入數(shù)據(jù)為時,按照步驟2.5.1-步驟2.5.3的過程對和對應(yīng)的、、、進(jìn)行計算,得到的動態(tài)隱變量特征;
63、步驟2.5.1、將作為查詢向量,將分別作為鍵、值向量,一起輸入到靜態(tài)交叉注意力層中進(jìn)行交叉注意力計算,得到的靜態(tài)隱變量特征;
64、步驟2.5.2、將和輸入到所述門控自注意力層,利用式(6)得到對應(yīng)的含有位置信息的隱變量特征:
65、??(6)
66、式(6)中,表示自注意力計算,是調(diào)節(jié)布局控制強(qiáng)度的系數(shù),是激活函數(shù),是一個初始化為0的待學(xué)習(xí)標(biāo)量;
67、將和輸入到所述門控自注意力層,利用式(2)得到對應(yīng)的含有位置信息的隱變量特征;
68、步驟2.5.3、利用式(7)得到的動態(tài)隱變量特征:
69、?(7)
70、式(7)中,表示交叉注意力計算,是調(diào)節(jié)參考圖像權(quán)重的系數(shù);
71、進(jìn)一步的,所述步驟4.1中是利用式(8)構(gòu)建;
72、?(8)
73、式(8)中,表示第s個參考主體文本標(biāo)記指定的邊界框歸一化到與相同大小后得到的邊界框,表示內(nèi)的位置坐標(biāo);表示中的位置坐標(biāo),表示p中第s個參考主體文本標(biāo)記在中的(u,?v)位置處的注意力值;表示p中第s個參考主體文本標(biāo)記在中的位置處的注意力值。
74、進(jìn)一步的,所述步驟4.2包括:
75、步驟4.2.1、將邊界框歸一化到與相同大小后,得到歸一化后的邊界框,其中,表示歸一化后的第s個邊界框;
76、應(yīng)用一個二值化的全1掩碼將轉(zhuǎn)換為邊界框掩碼;其中,表示中位置坐標(biāo)處的邊界框掩碼;
77、步驟4.2.2、應(yīng)用一個二值化的全1掩碼將的四個角點(diǎn)轉(zhuǎn)換為角點(diǎn)掩碼集合;其中,表示第s個角點(diǎn)掩碼集,,分別表示的四個角點(diǎn)的掩碼;
78、步驟4.2.3、將交叉注意力圖投影到自身所在二維矩形平面的x軸和y軸上,得到x軸注意力向量和y軸注意力向量;
79、將邊界框掩碼投影到所在二維矩形平面的x軸和y軸上,得到x軸邊界框掩碼向量和y軸邊界框掩碼向量;
80、將角點(diǎn)掩碼集合投影到所在二維矩形平面的x軸和y軸上,得到x軸角點(diǎn)掩碼向量和y軸角點(diǎn)掩碼向量;
81、步驟4.2.4、利用式(9)得到時間步t的x軸尺度損失:
82、?(9)
83、式(9)中,表示的寬度;
84、步驟4.2.5、根據(jù)式(9)得到時間步t的y軸尺度損失;
85、步驟4.2.6、利用式(10)構(gòu)建:
86、?(10)。
87、本發(fā)明一種電子設(shè)備,包括存儲器以及處理器的特點(diǎn)在于,所述存儲器用于存儲支持處理器執(zhí)行所述布局可控圖像個性化生成方法的程序,所述處理器被配置為用于執(zhí)行所述存儲器中存儲的程序。
88、本發(fā)明一種計算機(jī)可讀存儲介質(zhì),計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)程序的特點(diǎn)在于,所述計算機(jī)程序被處理器運(yùn)行時執(zhí)行所述布局可控圖像個性化生成方法的步驟。
89、與已有技術(shù)相比,本發(fā)明的有益效果在于:
90、1、本發(fā)明設(shè)計了一個基于擴(kuò)散模型的布局可控個性化生成框架,是給個性化生成模型添加位置可控能力的探索性工作,能在保持參考主體保真度的同時,賦予模型在任意位置生成任意物體的能力,提高了定位生成內(nèi)容的精度,從而適應(yīng)更復(fù)雜的布局要求,適配特定空間配置的生成任務(wù)。
91、2、本發(fā)明創(chuàng)新性地設(shè)計了一種動靜互補(bǔ)的視覺特征細(xì)化機(jī)制,一支路利用動態(tài)自適應(yīng)視覺編碼器,從視頻和經(jīng)過數(shù)據(jù)增強(qiáng)的圖像數(shù)據(jù)中提取動態(tài)的細(xì)節(jié)信息,讓模型學(xué)習(xí)到多視角的主體特征;另一支路利用靜態(tài)細(xì)節(jié)提煉模塊進(jìn)一步細(xì)化靜態(tài)細(xì)節(jié)特征,極大地提升了參考主體的細(xì)節(jié)還原度,提高了生成圖像的一致性和真實(shí)性。
92、3、本發(fā)明前瞻性地提出了向個性化生成框架中加入布局可控能力提高生成控制力的目標(biāo),定義了布局可控的個性化生成任務(wù)。通過訓(xùn)練階段門控子注意力層的微調(diào)和推理階段邊界框約束的交叉注意力調(diào)控對模型施加了雙重位置控制信號,賦予了模型魯棒的位置可控生成能力,從而增強(qiáng)了生成復(fù)雜場景的穩(wěn)定性和適應(yīng)性,始終保持生成圖像較高的視覺質(zhì)量。
93、4、本發(fā)明采用了輕量的適配器微調(diào)方案,對未見過的參考主體和不同的參考圖像分布都有泛化能力,不需要測試階段微調(diào)即可進(jìn)行直接生成,極大減小了生成圖像的計算開銷,提高了生成效率。