本申請(qǐng)涉及圖像處理,尤其涉及一種圖像外繪方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、圖像外繪(image?outpainting)任務(wù)是指在給定的原始圖像邊界外繪制新的圖像內(nèi)容,以實(shí)現(xiàn)圖像擴(kuò)展的圖像編輯任務(wù)。
2、當(dāng)前,可以根據(jù)原始圖像中的紋理信息,在原始圖像邊界外復(fù)制或拼接相似的紋理內(nèi)容來進(jìn)行圖像外繪。例如在對(duì)草原圖像進(jìn)行外繪時(shí),可以從草原圖像中提取草地紋理樣本,直接或?qū)Σ莸丶y理樣本進(jìn)行合理變形后拼接到圖像邊界外,從而實(shí)現(xiàn)圖像擴(kuò)展;也可以從圖像庫(kù)中獲取類似圖像塊,通過將獲取的圖像塊填充到需要外繪的區(qū)域?qū)崿F(xiàn)圖像擴(kuò)展。
3、但是,基于上述方案得到的外繪區(qū)域的紋理等信息較為單一,現(xiàn)有的圖像外繪方案難以實(shí)現(xiàn)對(duì)原始圖像的生動(dòng)自然擴(kuò)展。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,本申請(qǐng)?zhí)峁┝艘环N圖像外繪方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),以生成信息豐富的外繪區(qū)域,實(shí)現(xiàn)生動(dòng)自然的圖像外繪任務(wù)。
2、具體方案如下:
3、本申請(qǐng)第一方面提供一種圖像外繪方法,包括:
4、調(diào)用預(yù)訓(xùn)練的多模態(tài)模型對(duì)原始圖像進(jìn)行處理,得到圖像生成提示詞,所述圖像生成提示詞包含用于生成所述原始圖像的外繪區(qū)域的描述文本;
5、調(diào)用預(yù)訓(xùn)練的圖像生成模型依據(jù)所述圖像生成提示詞和所述原始圖像生成外繪后圖像;其中,所述圖像生成模型為配置有擴(kuò)展模型的穩(wěn)定擴(kuò)散模型,所述擴(kuò)展模型為預(yù)訓(xùn)練的內(nèi)繪控制網(wǎng)絡(luò)controlnet++,所述內(nèi)繪控制網(wǎng)絡(luò)controlnet++利用所述原始圖像對(duì)所述穩(wěn)定擴(kuò)散模型的圖像生成過程進(jìn)行控制,以使所述穩(wěn)定擴(kuò)散模型的生成圖像中與原始圖像對(duì)應(yīng)的區(qū)域與所述原始圖像趨于一致。
6、本申請(qǐng)第二方面提供一種圖像外繪裝置,包括:
7、提示詞生成單元,用于調(diào)用預(yù)訓(xùn)練的多模態(tài)模型對(duì)原始圖像進(jìn)行處理,得到圖像生成提示詞,所述圖像生成提示詞包含用于生成所述原始圖像的外繪區(qū)域的描述文本;
8、圖像生成單元,用于調(diào)用預(yù)訓(xùn)練的圖像生成模型依據(jù)所述圖像生成提示詞和所述原始圖像生成外繪后圖像;其中,所述圖像生成模型為配置有擴(kuò)展模型的穩(wěn)定擴(kuò)散模型,所述擴(kuò)展模型為預(yù)訓(xùn)練的內(nèi)繪控制網(wǎng)絡(luò)controlnet++,所述內(nèi)繪控制網(wǎng)絡(luò)controlnet++利用所述原始圖像對(duì)所述穩(wěn)定擴(kuò)散模型的圖像生成過程進(jìn)行控制,以使所述穩(wěn)定擴(kuò)散模型的生成圖像中與原始圖像對(duì)應(yīng)的區(qū)域與所述原始圖像趨于一致。
9、本申請(qǐng)第三方面提供一種圖像外繪設(shè)備,包括至少一個(gè)處理器和與所述處理器連接的存儲(chǔ)器,其中:
10、所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序;
11、所述處理器用于執(zhí)行所述計(jì)算機(jī)程序,以實(shí)現(xiàn)上述第一方面所述的圖像外繪方法。
12、本申請(qǐng)第四方面提供一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)承載有一個(gè)或多個(gè)計(jì)算機(jī)程序,當(dāng)所述一個(gè)或多個(gè)計(jì)算機(jī)程序被電子設(shè)備執(zhí)行時(shí),能夠使所述電子設(shè)備實(shí)現(xiàn)上述第一方面所述的圖像外繪方法。
13、借由上述技術(shù)方案,本申請(qǐng)首先調(diào)用預(yù)訓(xùn)練的多模態(tài)模型對(duì)原始圖像進(jìn)行處理,得到圖像生成提示詞,再調(diào)用預(yù)訓(xùn)練的圖像生成模型依據(jù)圖像生成提示詞和原始圖像生成外繪后圖像。由于圖像生成提示詞包含用于生成原始圖像的外繪區(qū)域的描述文本,依此為后續(xù)的外繪后圖像生成提供了外繪區(qū)域信息,有助于生成信息豐富的外繪區(qū)域;在此基礎(chǔ)上,圖像生成模型為配置有擴(kuò)展模型的穩(wěn)定擴(kuò)散模型,擴(kuò)展模型為預(yù)訓(xùn)練的內(nèi)繪控制網(wǎng)絡(luò)controlnet++,由于內(nèi)繪控制網(wǎng)絡(luò)controlnet++利用原始圖像對(duì)穩(wěn)定擴(kuò)散模型的圖像生成過程進(jìn)行了控制,可以使穩(wěn)定擴(kuò)散模型的生成圖像中與原始圖像對(duì)應(yīng)的區(qū)域與原始圖像趨于一致,依此基本保留了原始圖像內(nèi)容,使得生成的外繪后圖像可以作為由原始圖像外繪擴(kuò)展的目標(biāo)圖像,最終實(shí)現(xiàn)了生動(dòng)自然的圖像外繪任務(wù)。
1.一種圖像外繪方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的圖像外繪方法,其特征在于,所述調(diào)用預(yù)訓(xùn)練的多模態(tài)模型對(duì)原始圖像進(jìn)行處理,得到圖像生成提示詞,包括:
3.根據(jù)權(quán)利要求1或2所述的圖像外繪方法,其特征在于,所述調(diào)用預(yù)訓(xùn)練的圖像生成模型依據(jù)所述圖像生成提示詞和所述原始圖像生成外繪后圖像,包括:
4.根據(jù)權(quán)利要求3所述的圖像外繪方法,其特征在于,所述穩(wěn)定擴(kuò)散模型采用擾動(dòng)注意力引導(dǎo)與無分類器引導(dǎo)聯(lián)合的采樣引導(dǎo)方式。
5.根據(jù)權(quán)利要求1或2所述的圖像外繪方法,其特征在于,在生成所述外繪后圖像之后,還包括:
6.根據(jù)權(quán)利要求5所述的圖像外繪方法,其特征在于,對(duì)所述外繪后圖像進(jìn)行后處理,還包括:
7.根據(jù)權(quán)利要求5所述的圖像外繪方法,其特征在于,對(duì)所述外繪后圖像進(jìn)行后處理,還包括:
8.一種圖像外繪裝置,其特征在于,包括:
9.一種圖像外繪設(shè)備,其特征在于,包括至少一個(gè)處理器和與所述處理器連接的存儲(chǔ)器,其中:
10.一種存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)承載有一個(gè)或多個(gè)計(jì)算機(jī)程序,當(dāng)所述一個(gè)或多個(gè)計(jì)算機(jī)程序被電子設(shè)備執(zhí)行時(shí),能夠使所述電子設(shè)備實(shí)現(xiàn)如權(quán)利要求1至7中任意一項(xiàng)所述的圖像外繪方法。