最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

圖像編輯方法、裝置及存儲介質(zhì)與流程

文檔序號:41952614發(fā)布日期:2025-05-16 14:15閱讀:2來源:國知局
圖像編輯方法、裝置及存儲介質(zhì)與流程

本公開涉及圖像識別、圖像編輯以及相關(guān)人工智能,尤其涉及一種圖像編輯方法、裝置及存儲介質(zhì)。


背景技術(shù):

1、相關(guān)技術(shù)中,圖像編輯與生成技術(shù)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向,其主要目的是通過計(jì)算機(jī)算法對圖像進(jìn)行編輯和生成,以達(dá)到一定的目的。目前,圖像編輯與生成技術(shù)的研究現(xiàn)狀主要包括以下幾個(gè)方面:

2、(1)圖像修復(fù):圖像修復(fù)是指通過計(jì)算機(jī)算法對圖像中的缺陷、噪聲、失真等進(jìn)行修復(fù),以提高圖像的質(zhì)量和清晰度。目前,圖像修復(fù)技術(shù)主要包括基于插值、基于紋理合成、基于深度學(xué)習(xí)等方法。

3、(2)圖像增強(qiáng):圖像增強(qiáng)是指通過計(jì)算機(jī)算法對圖像進(jìn)行增強(qiáng),以提高圖像的亮度、對比度、清晰度等。目前,圖像增強(qiáng)技術(shù)主要包括基于直方圖均衡化、基于濾波、基于深度學(xué)習(xí)等方法。

4、(3)圖像合成:圖像合成是指通過計(jì)算機(jī)算法將多張圖像進(jìn)行合成,以生成一張新的圖像。目前,圖像合成技術(shù)主要包括基于圖像融合、基于圖像拼接、基于深度學(xué)習(xí)等方法。

5、(4)圖像生成:圖像生成是指通過計(jì)算機(jī)算法生成一張新的圖像,以滿足一定的需求。目前,圖像生成技術(shù)主要包括基于生成對抗網(wǎng)絡(luò)(gan)、基于變分自編碼器(vae)、基于深度學(xué)習(xí)等方法。

6、總的來說,圖像編輯與生成技術(shù)的研究現(xiàn)狀主要包括圖像修復(fù)、圖像增強(qiáng)、圖像合成和圖像生成等方面,其中深度學(xué)習(xí)技術(shù)在圖像編輯與生成領(lǐng)域中的應(yīng)用越來越廣泛。

7、此外,圖像編輯和文生圖技術(shù)的應(yīng)用場景非常廣泛,以下是一些常見的應(yīng)用場景:

8、(1)圖像設(shè)計(jì)應(yīng)用類:比如可以利用圖像編輯和文生圖技術(shù)可以用于廣告設(shè)計(jì)中,例如制作海報(bào)、宣傳單、廣告牌等;電影和視頻制作,例如特效制作、場景合成、角色設(shè)計(jì)等;游戲開發(fā)中的圖像設(shè)計(jì),例如角色設(shè)計(jì)、場景設(shè)計(jì)、特效制作等;藝術(shù)創(chuàng)作,例如數(shù)字藝術(shù)、虛擬現(xiàn)實(shí)藝術(shù)、交互式藝術(shù)等。

9、(2)手機(jī)端的拍照美化,移動設(shè)備上的圖像編輯和文生圖技術(shù)可以用于拍照美化,例如對照片進(jìn)行濾鏡、修飾、涂鴉等操作,讓照片更加美觀。也可以用于社交媒體,例如對照片進(jìn)行剪裁、合成、添加文字等操作,讓照片更加有趣。

10、(3)移動設(shè)備上的圖像編輯和文生圖技術(shù)可以用于電商平臺,例如對商品照片進(jìn)行修飾、合成、添加標(biāo)簽等操作,讓商品更加吸引人。也可以用于教育培訓(xùn),例如對教學(xué)素材進(jìn)行制作、課件進(jìn)行設(shè)計(jì)、學(xué)習(xí)資料進(jìn)行制作等操作,讓教育更加生動。

11、總的來說,圖像編輯和文生圖技術(shù)的應(yīng)用場景非常廣泛,可以應(yīng)用于各個(gè)領(lǐng)域,為人們的生活和工作帶來便利和創(chuàng)新。


技術(shù)實(shí)現(xiàn)思路

1、為克服相關(guān)技術(shù)中存在的問題,本公開提供一種圖像編輯方法、裝置及存儲介質(zhì)。

2、根據(jù)本公開實(shí)施例的第一方面,提供一種圖像編輯方法,包括:獲取待編輯圖像以及用戶輸入的文本信息,所述文本信息為用戶期待對所述待編輯圖像進(jìn)行擴(kuò)展編輯的描述信息;基于所述待編輯圖像以及所述文本信息,生成目標(biāo)圖像,所述目標(biāo)圖像包括對所述待編輯圖像進(jìn)行擴(kuò)展編輯后的擴(kuò)展區(qū)域,所述擴(kuò)展區(qū)域與所述待編輯圖像中的待編輯區(qū)域之間滿足相似度條件。

3、一種實(shí)施方式中,所述基于所述待編輯圖像以及所述文本信息,生成目標(biāo)圖像,包括:在所述待編輯圖像中確定待編輯區(qū)域;基于所述待編輯圖像、所述文本信息、所述待編輯區(qū)域,以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm,得到第一文本信息標(biāo)記,所述第一文本信息標(biāo)記用于標(biāo)記與所述待編輯區(qū)域具有相似度條件的擴(kuò)展區(qū)域;調(diào)用微調(diào)潛在擴(kuò)散模型,對所述第一文本信息標(biāo)記進(jìn)行迭代去噪,得到目標(biāo)圖像。

4、一種實(shí)施方式中,所述基于所述待編輯圖像、所述文本信息、所述待編輯區(qū)域,以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm,得到第一文本信息標(biāo)記,包括:基于所述待編輯圖像、所述文本信息以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm,得到所述待編輯圖像與所述文本信息之間的第一文本特征;對所述待編輯圖像中的待編輯區(qū)域進(jìn)行掩碼文本反轉(zhuǎn),并與所述第一文本特征融合,得到第一文本信息標(biāo)記。

5、一種實(shí)施方式中,所述基于所述待編輯圖像、所述文本信息以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm,得到所述待編輯圖像與所述文本信息之間的第一文本特征,包括:對所述文本信息進(jìn)行分詞處理,并提取分詞處理后的文本的第二文本特征;對所述待編輯圖像添加隨機(jī)噪聲,并對添加隨機(jī)噪聲的待編輯圖像進(jìn)行編碼轉(zhuǎn)換,得到第三文本特征;將所述第二文本特征和所述第三文本特征,輸入至所述預(yù)訓(xùn)練的ldm,得到第一文本特征。

6、一種實(shí)施方式中,所述在所述待編輯圖像中確定待編輯區(qū)域,包括:響應(yīng)于用戶在所述待編輯圖像進(jìn)行目標(biāo)區(qū)域選擇,將所述目標(biāo)區(qū)域,作為待編輯區(qū)域;或者響應(yīng)于用戶未在所述待編輯圖像進(jìn)行目標(biāo)區(qū)域選擇,將所述待編輯圖像的整個(gè)區(qū)域,作為待編輯區(qū)域。

7、一種實(shí)施方式中,所述方法還包括:對所述待編輯圖像添加隨機(jī)噪聲,并基于所述預(yù)訓(xùn)練的ldm,對添加隨機(jī)噪聲的待編輯圖像進(jìn)行迭代循環(huán)處理,得到第四文本特征;所述調(diào)用微調(diào)潛在擴(kuò)散模型,對所述第一文本信息標(biāo)記進(jìn)行迭代去噪,得到目標(biāo)圖像,包括:將所述第四文本特征對應(yīng)的第二文本信息標(biāo)記與所述第一文本信息標(biāo)記進(jìn)行融合;調(diào)用微調(diào)潛在擴(kuò)散模型,對融合后的文本標(biāo)記進(jìn)行迭代去噪,得到目標(biāo)圖像。

8、一種實(shí)施方式中,所述調(diào)用微調(diào)潛在擴(kuò)散模型,對所述第一文本信息標(biāo)記進(jìn)行迭代去噪,得到目標(biāo)圖像,包括:對微調(diào)潛在擴(kuò)散模型中各自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)層之間,基于多頭注意力機(jī)制的關(guān)鍵投影和查詢投影,確定所述文本信息標(biāo)記的注意力通道值;對所述注意力通道值與所述待編輯圖像相乘,得到目標(biāo)圖像。

9、根據(jù)本公開實(shí)施例的第二方面,提供一種圖像編輯裝置,包括:獲取單元,用于獲取待編輯圖像以及用戶輸入的文本信息,所述文本信息為用戶期待對所述待編輯圖像進(jìn)行擴(kuò)展編輯的描述信息;執(zhí)行單元,用于基于所述待編輯圖像以及所述文本信息,生成目標(biāo)圖像,所述目標(biāo)圖像包括對所述待編輯圖像進(jìn)行擴(kuò)展編輯后的擴(kuò)展區(qū)域,所述擴(kuò)展區(qū)域與所述待編輯圖像中的待編輯區(qū)域之間滿足相似度條件。

10、一種實(shí)施方式中,所述執(zhí)行單元采用如下方式基于所述待編輯圖像以及所述文本信息,生成目標(biāo)圖像:在所述待編輯圖像中確定待編輯區(qū)域;基于所述待編輯圖像、所述文本信息、所述待編輯區(qū)域,以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm,得到第一文本信息標(biāo)記,所述第一文本信息標(biāo)記用于標(biāo)記與所述待編輯區(qū)域具有相似度條件的擴(kuò)展區(qū)域;調(diào)用微調(diào)潛在擴(kuò)散模型,對所述第一文本信息標(biāo)記進(jìn)行迭代去噪,得到目標(biāo)圖像。

11、一種實(shí)施方式中,所述執(zhí)行單元采用如下方式基于所述待編輯圖像、所述文本信息、所述待編輯區(qū)域,以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm,得到第一文本信息標(biāo)記:基于所述待編輯圖像、所述文本信息以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm,得到所述待編輯圖像與所述文本信息之間的第一文本特征;對所述待編輯圖像中的待編輯區(qū)域進(jìn)行掩碼文本反轉(zhuǎn),并與所述第一文本特征融合,得到第一文本信息標(biāo)記。

12、一種實(shí)施方式中,所述執(zhí)行單元采用如下方式基于所述待編輯圖像、所述文本信息以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm,得到所述待編輯圖像與所述文本信息之間的第一文本特征:對所述文本信息進(jìn)行分詞處理,并提取分詞處理后的文本的第二文本特征;對所述待編輯圖像添加隨機(jī)噪聲,并對添加隨機(jī)噪聲的待編輯圖像進(jìn)行編碼轉(zhuǎn)換,得到第三文本特征;將所述第二文本特征和所述第三文本特征,輸入至所述預(yù)訓(xùn)練的ldm,得到第一文本特征。

13、一種實(shí)施方式中,所述執(zhí)行單元采用如下方式在所述待編輯圖像中確定待編輯區(qū)域:響應(yīng)于用戶在所述待編輯圖像進(jìn)行目標(biāo)區(qū)域選擇,將所述目標(biāo)區(qū)域,作為待編輯區(qū)域;或者響應(yīng)于用戶未在所述待編輯圖像進(jìn)行目標(biāo)區(qū)域選擇,將所述待編輯圖像的整個(gè)區(qū)域,作為待編輯區(qū)域。

14、一種實(shí)施方式中,所述執(zhí)行單元還用于:對所述待編輯圖像添加隨機(jī)噪聲,并基于所述預(yù)訓(xùn)練的ldm,對添加隨機(jī)噪聲的待編輯圖像進(jìn)行迭代循環(huán)處理,得到第四文本特征;所述執(zhí)行單元采用如下方式調(diào)用微調(diào)潛在擴(kuò)散模型,對所述第一文本信息標(biāo)記進(jìn)行迭代去噪,得到目標(biāo)圖像:將所述第四文本特征對應(yīng)的第二文本信息標(biāo)記與所述第一文本信息標(biāo)記進(jìn)行融合;調(diào)用微調(diào)潛在擴(kuò)散模型,對融合后的文本標(biāo)記進(jìn)行迭代去噪,得到目標(biāo)圖像。

15、一種實(shí)施方式中,所述執(zhí)行單元采用如下方式調(diào)用微調(diào)潛在擴(kuò)散模型,對所述第一文本信息標(biāo)記進(jìn)行迭代去噪,得到目標(biāo)圖像:對微調(diào)潛在擴(kuò)散模型中各自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)層之間,基于多頭注意力機(jī)制的關(guān)鍵投影和查詢投影,確定所述文本信息標(biāo)記的注意力通道值;對所述注意力通道值與所述待編輯圖像相乘,得到目標(biāo)圖像。

16、根據(jù)本公開實(shí)施例的第三方面,提供一種圖像編輯裝置,包括:處理器;用于存儲處理器可執(zhí)行指令的存儲器;其中,所述處理器被配置為:執(zhí)行第一方面或第一方面中任意一種實(shí)施方式中所述的圖像編輯方法。

17、根據(jù)本公開實(shí)施例的第四方面,提供一種存儲介質(zhì),所述存儲介質(zhì)中存儲有指令,當(dāng)所述存儲介質(zhì)中的指令由終端的處理器執(zhí)行時(shí),使得終端能夠執(zhí)行第一方面或第一方面中任意一種實(shí)施方式中所述的圖像編輯方法。

18、本公開的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:獲取待編輯圖像以及用戶輸入的對待編輯圖像進(jìn)行擴(kuò)展編輯的描述信息,基于待編輯圖像以及描述信息,生成對待編輯圖像進(jìn)行擴(kuò)展編輯后的目標(biāo)圖像,擴(kuò)展區(qū)域與待編輯圖像中的待編輯區(qū)域之間的風(fēng)格類似。

19、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1