最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

圖像生成方法、裝置和電子設(shè)備與流程

文檔序號:41952896發(fā)布日期:2025-05-16 14:15閱讀:5來源:國知局
圖像生成方法、裝置和電子設(shè)備與流程

本發(fā)明涉及圖像處理,尤其是涉及一種圖像生成方法、裝置和電子設(shè)備。


背景技術(shù):

1、擴(kuò)散模型可以根據(jù)用戶的輸入數(shù)據(jù)生成圖像,輸入數(shù)據(jù)包括文本描述、參考圖像等。對于海報(bào)圖像、廣告圖像等圖像生成任務(wù),對圖像的布局具有較高的要求,但通過擴(kuò)散模型生成的圖像往往結(jié)構(gòu)布局合理性較差,導(dǎo)致圖像的質(zhì)量和視覺效果難以滿足用戶需求。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本發(fā)明的目的在于提供一種圖像生成方法、裝置和電子設(shè)備,以使用戶通過輸入的文本和圖像可以精確控制圖像布局,提高圖像布局的合理性,進(jìn)而提高圖像的質(zhì)量和視覺效果。

2、第一方面,本發(fā)明實(shí)施例提供了一種圖像生成方法,方法包括:獲取目標(biāo)文本和初始圖像;其中,初始圖像包括目標(biāo)對象;基于目標(biāo)文本和初始圖像,對預(yù)設(shè)的布局模板進(jìn)行調(diào)整,得到布局調(diào)整信息;其中,布局模板包括:布局元素以及布局元素的默認(rèn)參數(shù);布局調(diào)整信息包括:布局模板中的至少部分布局元素,以及至少部分布局元素被調(diào)整后的布局參數(shù);布局元素包括目標(biāo)對象以及目標(biāo)對象相關(guān)的附屬對象;基于布局調(diào)整信息和初始圖像,生成控制條件;通過控制條件控制預(yù)設(shè)擴(kuò)散模型進(jìn)行去噪處理,生成最終圖像;其中,最終圖像包含目標(biāo)對象以及目標(biāo)對象關(guān)聯(lián)的附屬對象,目標(biāo)對象和附屬對象按照布局參數(shù)進(jìn)行布局。

3、第二方面,本發(fā)明實(shí)施例提供了一種圖像生成裝置,裝置包括:獲取模塊,用于獲取目標(biāo)文本和初始圖像;其中,初始圖像包括目標(biāo)對象;布局模塊,用于基于目標(biāo)文本和初始圖像,對預(yù)設(shè)的布局模板進(jìn)行調(diào)整,得到布局調(diào)整信息;其中,布局模板包括:布局元素以及布局元素的默認(rèn)參數(shù);布局調(diào)整信息包括:布局模板中的至少部分布局元素,以及至少部分布局元素被調(diào)整后的布局參數(shù);布局元素包括目標(biāo)對象以及目標(biāo)對象相關(guān)的附屬對象;控制模塊,用于基于布局調(diào)整信息和初始圖像,生成控制條件;去噪模塊,用于通過控制條件控制預(yù)設(shè)擴(kuò)散模型進(jìn)行去噪處理,生成最終圖像;其中,最終圖像包含目標(biāo)對象以及目標(biāo)對象關(guān)聯(lián)的附屬對象,目標(biāo)對象和附屬對象按照布局參數(shù)進(jìn)行布局。

4、第三方面,本發(fā)明實(shí)施例提供了一種電子設(shè)備,包括處理器和存儲器,存儲器存儲有能夠被處理器執(zhí)行的計(jì)算機(jī)可執(zhí)行指令,處理器執(zhí)行計(jì)算機(jī)可執(zhí)行指令以實(shí)現(xiàn)上述圖像生成方法。

5、第四方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲介質(zhì),計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)可執(zhí)行指令,計(jì)算機(jī)可執(zhí)行指令在被處理器調(diào)用和執(zhí)行時,計(jì)算機(jī)可執(zhí)行指令促使處理器實(shí)現(xiàn)上述圖像生成方法。

6、本發(fā)明實(shí)施例帶來了以下有益效果:

7、上述圖像生成方法、裝置和電子設(shè)備,獲取目標(biāo)文本和初始圖像;其中,初始圖像包括目標(biāo)對象;基于目標(biāo)文本和初始圖像,對預(yù)設(shè)的布局模板進(jìn)行調(diào)整,得到布局調(diào)整信息;其中,布局模板包括:布局元素以及布局元素的默認(rèn)參數(shù);布局調(diào)整信息包括:布局模板中的至少部分布局元素,以及至少部分布局元素被調(diào)整后的布局參數(shù);布局元素包括目標(biāo)對象以及目標(biāo)對象相關(guān)的附屬對象;基于布局調(diào)整信息和初始圖像,生成控制條件;通過控制條件控制預(yù)設(shè)擴(kuò)散模型進(jìn)行去噪處理,生成最終圖像;其中,最終圖像包含目標(biāo)對象以及目標(biāo)對象關(guān)聯(lián)的附屬對象,目標(biāo)對象和附屬對象按照布局參數(shù)進(jìn)行布局。

8、該方式中,用戶輸入目標(biāo)文本和初始圖像,基于目標(biāo)文本和初始圖像生成布局調(diào)整信息,進(jìn)而通過布局調(diào)整信息控制圖像的去噪過程,使得最終圖像的圖像布局與用戶輸入的數(shù)據(jù)相匹配,用戶通過輸入的文本和圖像可以精確控制圖像布局,提高了圖像布局的合理性,進(jìn)而提高了圖像的質(zhì)量和視覺效果。

9、本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。

10、為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。



技術(shù)特征:

1.一種圖像生成方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述默認(rèn)參數(shù)包括:指定屬性,以及所述指定屬性預(yù)設(shè)的至少一種屬性值;所述指定屬性包括:對象類別、中心位置、對象尺寸中的至少一種。

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述目標(biāo)文本和所述初始圖像,對預(yù)設(shè)的布局模板進(jìn)行調(diào)整,得到布局調(diào)整信息的步驟,包括:

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,將當(dāng)前時間步、所述第一布局特征、所述文本特征和所述第一圖像特征進(jìn)行交叉注意力處理,得到處理結(jié)果的步驟,包括:

5.根據(jù)權(quán)利要求3所述的方法,其特征在于,將當(dāng)前時間步、所述第一布局特征、所述文本特征和所述第一圖像特征進(jìn)行交叉注意力處理,得到處理結(jié)果的步驟,包括:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,基于上一個時間步的處理結(jié)果更新所述第一布局特征的步驟,包括:

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述目標(biāo)文本和所述初始圖像,對預(yù)設(shè)的布局模板進(jìn)行調(diào)整,得到布局調(diào)整信息的步驟,包括:

8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述轉(zhuǎn)換模塊包括:自適應(yīng)歸一化函數(shù)、自注意力函數(shù)、交叉注意力函數(shù)和前饋函數(shù);

9.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述目標(biāo)文本和所述初始圖像,對預(yù)設(shè)的布局模板進(jìn)行調(diào)整,得到布局調(diào)整信息的步驟之后,所述方法還包括:

10.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述布局調(diào)整信息和所述初始圖像,生成控制條件的步驟,包括:

11.根據(jù)權(quán)利要求10所述的方法,其特征在于,生成所述布局調(diào)整信息對應(yīng)的第二布局特征的步驟,包括:

12.根據(jù)權(quán)利要求10所述的方法,其特征在于,生成所述初始圖像對應(yīng)的第二圖像特征的步驟,包括:

13.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過所述控制條件控制預(yù)設(shè)擴(kuò)散模型進(jìn)行去噪處理,生成最終圖像的步驟,包括:

14.根據(jù)權(quán)利要求13所述的方法,其特征在于,所述方法還包括:

15.根據(jù)權(quán)利要求13所述的方法,其特征在于,基于所述目標(biāo)文本,在所述中間圖像中渲染圖像文本,生成最終圖像的步驟,包括:

16.一種圖像生成裝置,其特征在于,所述裝置包括:

17.一種電子設(shè)備,其特征在于,包括處理器和存儲器,所述存儲器存儲有能夠被所述處理器執(zhí)行的計(jì)算機(jī)可執(zhí)行指令,所述處理器執(zhí)行所述計(jì)算機(jī)可執(zhí)行指令以實(shí)現(xiàn)權(quán)利要求1-15任一項(xiàng)所述的圖像生成方法。

18.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令在被處理器調(diào)用和執(zhí)行時,所述計(jì)算機(jī)可執(zhí)行指令促使所述處理器實(shí)現(xiàn)權(quán)利要求1-15任一項(xiàng)所述的圖像生成方法。


技術(shù)總結(jié)
本發(fā)明提供了一種圖像生成方法、裝置和電子設(shè)備;其中,該方法包括:獲取目標(biāo)文本和初始圖像;其中,初始圖像包括目標(biāo)對象;基于目標(biāo)文本和初始圖像,對預(yù)設(shè)的布局模板進(jìn)行調(diào)整,得到布局調(diào)整信息;布局調(diào)整信息包括:布局模板中的至少部分布局元素,以及至少部分布局元素被調(diào)整后的布局參數(shù);布局元素包括目標(biāo)對象以及目標(biāo)對象相關(guān)的附屬對象;基于布局調(diào)整信息和初始圖像,生成控制條件;通過控制條件控制預(yù)設(shè)擴(kuò)散模型進(jìn)行去噪處理,生成最終圖像;其中,最終圖像包含目標(biāo)對象以及目標(biāo)對象關(guān)聯(lián)的附屬對象,目標(biāo)對象和附屬對象按照布局參數(shù)進(jìn)行布局。該方式提高了圖像布局的合理性,進(jìn)而提高了圖像的質(zhì)量和視覺效果。

技術(shù)研發(fā)人員:劉琦
受保護(hù)的技術(shù)使用者:網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1