本發(fā)明涉及圖像處理,尤其是涉及一種圖像生成方法、裝置和電子設(shè)備。
背景技術(shù):
1、擴(kuò)散模型可以根據(jù)用戶的輸入數(shù)據(jù)生成圖像,輸入數(shù)據(jù)包括文本描述、參考圖像等。對于海報(bào)圖像、廣告圖像等圖像生成任務(wù),對圖像的布局具有較高的要求,但通過擴(kuò)散模型生成的圖像往往結(jié)構(gòu)布局合理性較差,導(dǎo)致圖像的質(zhì)量和視覺效果難以滿足用戶需求。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明的目的在于提供一種圖像生成方法、裝置和電子設(shè)備,以使用戶通過輸入的文本和圖像可以精確控制圖像布局,提高圖像布局的合理性,進(jìn)而提高圖像的質(zhì)量和視覺效果。
2、第一方面,本發(fā)明實(shí)施例提供了一種圖像生成方法,方法包括:獲取目標(biāo)文本和初始圖像;其中,初始圖像包括目標(biāo)對象;基于目標(biāo)文本和初始圖像,對預(yù)設(shè)的布局模板進(jìn)行調(diào)整,得到布局調(diào)整信息;其中,布局模板包括:布局元素以及布局元素的默認(rèn)參數(shù);布局調(diào)整信息包括:布局模板中的至少部分布局元素,以及至少部分布局元素被調(diào)整后的布局參數(shù);布局元素包括目標(biāo)對象以及目標(biāo)對象相關(guān)的附屬對象;基于布局調(diào)整信息和初始圖像,生成控制條件;通過控制條件控制預(yù)設(shè)擴(kuò)散模型進(jìn)行去噪處理,生成最終圖像;其中,最終圖像包含目標(biāo)對象以及目標(biāo)對象關(guān)聯(lián)的附屬對象,目標(biāo)對象和附屬對象按照布局參數(shù)進(jìn)行布局。
3、第二方面,本發(fā)明實(shí)施例提供了一種圖像生成裝置,裝置包括:獲取模塊,用于獲取目標(biāo)文本和初始圖像;其中,初始圖像包括目標(biāo)對象;布局模塊,用于基于目標(biāo)文本和初始圖像,對預(yù)設(shè)的布局模板進(jìn)行調(diào)整,得到布局調(diào)整信息;其中,布局模板包括:布局元素以及布局元素的默認(rèn)參數(shù);布局調(diào)整信息包括:布局模板中的至少部分布局元素,以及至少部分布局元素被調(diào)整后的布局參數(shù);布局元素包括目標(biāo)對象以及目標(biāo)對象相關(guān)的附屬對象;控制模塊,用于基于布局調(diào)整信息和初始圖像,生成控制條件;去噪模塊,用于通過控制條件控制預(yù)設(shè)擴(kuò)散模型進(jìn)行去噪處理,生成最終圖像;其中,最終圖像包含目標(biāo)對象以及目標(biāo)對象關(guān)聯(lián)的附屬對象,目標(biāo)對象和附屬對象按照布局參數(shù)進(jìn)行布局。
4、第三方面,本發(fā)明實(shí)施例提供了一種電子設(shè)備,包括處理器和存儲器,存儲器存儲有能夠被處理器執(zhí)行的計(jì)算機(jī)可執(zhí)行指令,處理器執(zhí)行計(jì)算機(jī)可執(zhí)行指令以實(shí)現(xiàn)上述圖像生成方法。
5、第四方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲介質(zhì),計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)可執(zhí)行指令,計(jì)算機(jī)可執(zhí)行指令在被處理器調(diào)用和執(zhí)行時,計(jì)算機(jī)可執(zhí)行指令促使處理器實(shí)現(xiàn)上述圖像生成方法。
6、本發(fā)明實(shí)施例帶來了以下有益效果:
7、上述圖像生成方法、裝置和電子設(shè)備,獲取目標(biāo)文本和初始圖像;其中,初始圖像包括目標(biāo)對象;基于目標(biāo)文本和初始圖像,對預(yù)設(shè)的布局模板進(jìn)行調(diào)整,得到布局調(diào)整信息;其中,布局模板包括:布局元素以及布局元素的默認(rèn)參數(shù);布局調(diào)整信息包括:布局模板中的至少部分布局元素,以及至少部分布局元素被調(diào)整后的布局參數(shù);布局元素包括目標(biāo)對象以及目標(biāo)對象相關(guān)的附屬對象;基于布局調(diào)整信息和初始圖像,生成控制條件;通過控制條件控制預(yù)設(shè)擴(kuò)散模型進(jìn)行去噪處理,生成最終圖像;其中,最終圖像包含目標(biāo)對象以及目標(biāo)對象關(guān)聯(lián)的附屬對象,目標(biāo)對象和附屬對象按照布局參數(shù)進(jìn)行布局。
8、該方式中,用戶輸入目標(biāo)文本和初始圖像,基于目標(biāo)文本和初始圖像生成布局調(diào)整信息,進(jìn)而通過布局調(diào)整信息控制圖像的去噪過程,使得最終圖像的圖像布局與用戶輸入的數(shù)據(jù)相匹配,用戶通過輸入的文本和圖像可以精確控制圖像布局,提高了圖像布局的合理性,進(jìn)而提高了圖像的質(zhì)量和視覺效果。
9、本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
10、為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。
1.一種圖像生成方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述默認(rèn)參數(shù)包括:指定屬性,以及所述指定屬性預(yù)設(shè)的至少一種屬性值;所述指定屬性包括:對象類別、中心位置、對象尺寸中的至少一種。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述目標(biāo)文本和所述初始圖像,對預(yù)設(shè)的布局模板進(jìn)行調(diào)整,得到布局調(diào)整信息的步驟,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,將當(dāng)前時間步、所述第一布局特征、所述文本特征和所述第一圖像特征進(jìn)行交叉注意力處理,得到處理結(jié)果的步驟,包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,將當(dāng)前時間步、所述第一布局特征、所述文本特征和所述第一圖像特征進(jìn)行交叉注意力處理,得到處理結(jié)果的步驟,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,基于上一個時間步的處理結(jié)果更新所述第一布局特征的步驟,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述目標(biāo)文本和所述初始圖像,對預(yù)設(shè)的布局模板進(jìn)行調(diào)整,得到布局調(diào)整信息的步驟,包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述轉(zhuǎn)換模塊包括:自適應(yīng)歸一化函數(shù)、自注意力函數(shù)、交叉注意力函數(shù)和前饋函數(shù);
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述目標(biāo)文本和所述初始圖像,對預(yù)設(shè)的布局模板進(jìn)行調(diào)整,得到布局調(diào)整信息的步驟之后,所述方法還包括:
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述布局調(diào)整信息和所述初始圖像,生成控制條件的步驟,包括:
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,生成所述布局調(diào)整信息對應(yīng)的第二布局特征的步驟,包括:
12.根據(jù)權(quán)利要求10所述的方法,其特征在于,生成所述初始圖像對應(yīng)的第二圖像特征的步驟,包括:
13.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過所述控制條件控制預(yù)設(shè)擴(kuò)散模型進(jìn)行去噪處理,生成最終圖像的步驟,包括:
14.根據(jù)權(quán)利要求13所述的方法,其特征在于,所述方法還包括:
15.根據(jù)權(quán)利要求13所述的方法,其特征在于,基于所述目標(biāo)文本,在所述中間圖像中渲染圖像文本,生成最終圖像的步驟,包括:
16.一種圖像生成裝置,其特征在于,所述裝置包括:
17.一種電子設(shè)備,其特征在于,包括處理器和存儲器,所述存儲器存儲有能夠被所述處理器執(zhí)行的計(jì)算機(jī)可執(zhí)行指令,所述處理器執(zhí)行所述計(jì)算機(jī)可執(zhí)行指令以實(shí)現(xiàn)權(quán)利要求1-15任一項(xiàng)所述的圖像生成方法。
18.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令在被處理器調(diào)用和執(zhí)行時,所述計(jì)算機(jī)可執(zhí)行指令促使所述處理器實(shí)現(xiàn)權(quán)利要求1-15任一項(xiàng)所述的圖像生成方法。