圖像編輯方法、裝置及存儲介質(zhì)與流程

文檔序號：41952614發(fā)布日期：2025-05-16 14:15閱讀：2來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本公開涉及圖像識別、圖像編輯以及相關(guān)人工智能，尤其涉及一種圖像編輯方法、裝置及存儲介質(zhì)。

背景技術(shù)：

1、相關(guān)技術(shù)中，圖像編輯與生成技術(shù)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向，其主要目的是通過計(jì)算機(jī)算法對圖像進(jìn)行編輯和生成，以達(dá)到一定的目的。目前，圖像編輯與生成技術(shù)的研究現(xiàn)狀主要包括以下幾個(gè)方面：

2、(1)圖像修復(fù)：圖像修復(fù)是指通過計(jì)算機(jī)算法對圖像中的缺陷、噪聲、失真等進(jìn)行修復(fù)，以提高圖像的質(zhì)量和清晰度。目前，圖像修復(fù)技術(shù)主要包括基于插值、基于紋理合成、基于深度學(xué)習(xí)等方法。

3、(2)圖像增強(qiáng)：圖像增強(qiáng)是指通過計(jì)算機(jī)算法對圖像進(jìn)行增強(qiáng)，以提高圖像的亮度、對比度、清晰度等。目前，圖像增強(qiáng)技術(shù)主要包括基于直方圖均衡化、基于濾波、基于深度學(xué)習(xí)等方法。

4、(3)圖像合成：圖像合成是指通過計(jì)算機(jī)算法將多張圖像進(jìn)行合成，以生成一張新的圖像。目前，圖像合成技術(shù)主要包括基于圖像融合、基于圖像拼接、基于深度學(xué)習(xí)等方法。

5、(4)圖像生成：圖像生成是指通過計(jì)算機(jī)算法生成一張新的圖像，以滿足一定的需求。目前，圖像生成技術(shù)主要包括基于生成對抗網(wǎng)絡(luò)(gan)、基于變分自編碼器(vae)、基于深度學(xué)習(xí)等方法。

6、總的來說，圖像編輯與生成技術(shù)的研究現(xiàn)狀主要包括圖像修復(fù)、圖像增強(qiáng)、圖像合成和圖像生成等方面，其中深度學(xué)習(xí)技術(shù)在圖像編輯與生成領(lǐng)域中的應(yīng)用越來越廣泛。

7、此外，圖像編輯和文生圖技術(shù)的應(yīng)用場景非常廣泛，以下是一些常見的應(yīng)用場景：

8、(1)圖像設(shè)計(jì)應(yīng)用類：比如可以利用圖像編輯和文生圖技術(shù)可以用于廣告設(shè)計(jì)中，例如制作海報(bào)、宣傳單、廣告牌等；電影和視頻制作，例如特效制作、場景合成、角色設(shè)計(jì)等；游戲開發(fā)中的圖像設(shè)計(jì)，例如角色設(shè)計(jì)、場景設(shè)計(jì)、特效制作等；藝術(shù)創(chuàng)作，例如數(shù)字藝術(shù)、虛擬現(xiàn)實(shí)藝術(shù)、交互式藝術(shù)等。

9、(2)手機(jī)端的拍照美化，移動設(shè)備上的圖像編輯和文生圖技術(shù)可以用于拍照美化，例如對照片進(jìn)行濾鏡、修飾、涂鴉等操作，讓照片更加美觀。也可以用于社交媒體，例如對照片進(jìn)行剪裁、合成、添加文字等操作，讓照片更加有趣。

10、(3)移動設(shè)備上的圖像編輯和文生圖技術(shù)可以用于電商平臺，例如對商品照片進(jìn)行修飾、合成、添加標(biāo)簽等操作，讓商品更加吸引人。也可以用于教育培訓(xùn)，例如對教學(xué)素材進(jìn)行制作、課件進(jìn)行設(shè)計(jì)、學(xué)習(xí)資料進(jìn)行制作等操作，讓教育更加生動。

11、總的來說，圖像編輯和文生圖技術(shù)的應(yīng)用場景非常廣泛，可以應(yīng)用于各個(gè)領(lǐng)域，為人們的生活和工作帶來便利和創(chuàng)新。

技術(shù)實(shí)現(xiàn)思路

1、為克服相關(guān)技術(shù)中存在的問題，本公開提供一種圖像編輯方法、裝置及存儲介質(zhì)。

2、根據(jù)本公開實(shí)施例的第一方面，提供一種圖像編輯方法，包括：獲取待編輯圖像以及用戶輸入的文本信息，所述文本信息為用戶期待對所述待編輯圖像進(jìn)行擴(kuò)展編輯的描述信息；基于所述待編輯圖像以及所述文本信息，生成目標(biāo)圖像，所述目標(biāo)圖像包括對所述待編輯圖像進(jìn)行擴(kuò)展編輯后的擴(kuò)展區(qū)域，所述擴(kuò)展區(qū)域與所述待編輯圖像中的待編輯區(qū)域之間滿足相似度條件。

3、一種實(shí)施方式中，所述基于所述待編輯圖像以及所述文本信息，生成目標(biāo)圖像，包括：在所述待編輯圖像中確定待編輯區(qū)域；基于所述待編輯圖像、所述文本信息、所述待編輯區(qū)域，以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm，得到第一文本信息標(biāo)記，所述第一文本信息標(biāo)記用于標(biāo)記與所述待編輯區(qū)域具有相似度條件的擴(kuò)展區(qū)域；調(diào)用微調(diào)潛在擴(kuò)散模型，對所述第一文本信息標(biāo)記進(jìn)行迭代去噪，得到目標(biāo)圖像。

4、一種實(shí)施方式中，所述基于所述待編輯圖像、所述文本信息、所述待編輯區(qū)域，以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm，得到第一文本信息標(biāo)記，包括：基于所述待編輯圖像、所述文本信息以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm，得到所述待編輯圖像與所述文本信息之間的第一文本特征；對所述待編輯圖像中的待編輯區(qū)域進(jìn)行掩碼文本反轉(zhuǎn)，并與所述第一文本特征融合，得到第一文本信息標(biāo)記。

5、一種實(shí)施方式中，所述基于所述待編輯圖像、所述文本信息以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm，得到所述待編輯圖像與所述文本信息之間的第一文本特征，包括：對所述文本信息進(jìn)行分詞處理，并提取分詞處理后的文本的第二文本特征；對所述待編輯圖像添加隨機(jī)噪聲，并對添加隨機(jī)噪聲的待編輯圖像進(jìn)行編碼轉(zhuǎn)換，得到第三文本特征；將所述第二文本特征和所述第三文本特征，輸入至所述預(yù)訓(xùn)練的ldm，得到第一文本特征。

6、一種實(shí)施方式中，所述在所述待編輯圖像中確定待編輯區(qū)域，包括：響應(yīng)于用戶在所述待編輯圖像進(jìn)行目標(biāo)區(qū)域選擇，將所述目標(biāo)區(qū)域，作為待編輯區(qū)域；或者響應(yīng)于用戶未在所述待編輯圖像進(jìn)行目標(biāo)區(qū)域選擇，將所述待編輯圖像的整個(gè)區(qū)域，作為待編輯區(qū)域。

7、一種實(shí)施方式中，所述方法還包括：對所述待編輯圖像添加隨機(jī)噪聲，并基于所述預(yù)訓(xùn)練的ldm，對添加隨機(jī)噪聲的待編輯圖像進(jìn)行迭代循環(huán)處理，得到第四文本特征；所述調(diào)用微調(diào)潛在擴(kuò)散模型，對所述第一文本信息標(biāo)記進(jìn)行迭代去噪，得到目標(biāo)圖像，包括：將所述第四文本特征對應(yīng)的第二文本信息標(biāo)記與所述第一文本信息標(biāo)記進(jìn)行融合；調(diào)用微調(diào)潛在擴(kuò)散模型，對融合后的文本標(biāo)記進(jìn)行迭代去噪，得到目標(biāo)圖像。

8、一種實(shí)施方式中，所述調(diào)用微調(diào)潛在擴(kuò)散模型，對所述第一文本信息標(biāo)記進(jìn)行迭代去噪，得到目標(biāo)圖像，包括：對微調(diào)潛在擴(kuò)散模型中各自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)層之間，基于多頭注意力機(jī)制的關(guān)鍵投影和查詢投影，確定所述文本信息標(biāo)記的注意力通道值；對所述注意力通道值與所述待編輯圖像相乘，得到目標(biāo)圖像。

9、根據(jù)本公開實(shí)施例的第二方面，提供一種圖像編輯裝置，包括：獲取單元，用于獲取待編輯圖像以及用戶輸入的文本信息，所述文本信息為用戶期待對所述待編輯圖像進(jìn)行擴(kuò)展編輯的描述信息；執(zhí)行單元，用于基于所述待編輯圖像以及所述文本信息，生成目標(biāo)圖像，所述目標(biāo)圖像包括對所述待編輯圖像進(jìn)行擴(kuò)展編輯后的擴(kuò)展區(qū)域，所述擴(kuò)展區(qū)域與所述待編輯圖像中的待編輯區(qū)域之間滿足相似度條件。

10、一種實(shí)施方式中，所述執(zhí)行單元采用如下方式基于所述待編輯圖像以及所述文本信息，生成目標(biāo)圖像：在所述待編輯圖像中確定待編輯區(qū)域；基于所述待編輯圖像、所述文本信息、所述待編輯區(qū)域，以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm，得到第一文本信息標(biāo)記，所述第一文本信息標(biāo)記用于標(biāo)記與所述待編輯區(qū)域具有相似度條件的擴(kuò)展區(qū)域；調(diào)用微調(diào)潛在擴(kuò)散模型，對所述第一文本信息標(biāo)記進(jìn)行迭代去噪，得到目標(biāo)圖像。

11、一種實(shí)施方式中，所述執(zhí)行單元采用如下方式基于所述待編輯圖像、所述文本信息、所述待編輯區(qū)域，以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm，得到第一文本信息標(biāo)記：基于所述待編輯圖像、所述文本信息以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm，得到所述待編輯圖像與所述文本信息之間的第一文本特征；對所述待編輯圖像中的待編輯區(qū)域進(jìn)行掩碼文本反轉(zhuǎn)，并與所述第一文本特征融合，得到第一文本信息標(biāo)記。

12、一種實(shí)施方式中，所述執(zhí)行單元采用如下方式基于所述待編輯圖像、所述文本信息以及預(yù)訓(xùn)練的潛在擴(kuò)散模型ldm，得到所述待編輯圖像與所述文本信息之間的第一文本特征：對所述文本信息進(jìn)行分詞處理，并提取分詞處理后的文本的第二文本特征；對所述待編輯圖像添加隨機(jī)噪聲，并對添加隨機(jī)噪聲的待編輯圖像進(jìn)行編碼轉(zhuǎn)換，得到第三文本特征；將所述第二文本特征和所述第三文本特征，輸入至所述預(yù)訓(xùn)練的ldm，得到第一文本特征。

13、一種實(shí)施方式中，所述執(zhí)行單元采用如下方式在所述待編輯圖像中確定待編輯區(qū)域：響應(yīng)于用戶在所述待編輯圖像進(jìn)行目標(biāo)區(qū)域選擇，將所述目標(biāo)區(qū)域，作為待編輯區(qū)域；或者響應(yīng)于用戶未在所述待編輯圖像進(jìn)行目標(biāo)區(qū)域選擇，將所述待編輯圖像的整個(gè)區(qū)域，作為待編輯區(qū)域。

14、一種實(shí)施方式中，所述執(zhí)行單元還用于：對所述待編輯圖像添加隨機(jī)噪聲，并基于所述預(yù)訓(xùn)練的ldm，對添加隨機(jī)噪聲的待編輯圖像進(jìn)行迭代循環(huán)處理，得到第四文本特征；所述執(zhí)行單元采用如下方式調(diào)用微調(diào)潛在擴(kuò)散模型，對所述第一文本信息標(biāo)記進(jìn)行迭代去噪，得到目標(biāo)圖像：將所述第四文本特征對應(yīng)的第二文本信息標(biāo)記與所述第一文本信息標(biāo)記進(jìn)行融合；調(diào)用微調(diào)潛在擴(kuò)散模型，對融合后的文本標(biāo)記進(jìn)行迭代去噪，得到目標(biāo)圖像。

15、一種實(shí)施方式中，所述執(zhí)行單元采用如下方式調(diào)用微調(diào)潛在擴(kuò)散模型，對所述第一文本信息標(biāo)記進(jìn)行迭代去噪，得到目標(biāo)圖像：對微調(diào)潛在擴(kuò)散模型中各自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)層之間，基于多頭注意力機(jī)制的關(guān)鍵投影和查詢投影，確定所述文本信息標(biāo)記的注意力通道值；對所述注意力通道值與所述待編輯圖像相乘，得到目標(biāo)圖像。

16、根據(jù)本公開實(shí)施例的第三方面，提供一種圖像編輯裝置，包括：處理器；用于存儲處理器可執(zhí)行指令的存儲器；其中，所述處理器被配置為：執(zhí)行第一方面或第一方面中任意一種實(shí)施方式中所述的圖像編輯方法。

17、根據(jù)本公開實(shí)施例的第四方面，提供一種存儲介質(zhì)，所述存儲介質(zhì)中存儲有指令，當(dāng)所述存儲介質(zhì)中的指令由終端的處理器執(zhí)行時(shí)，使得終端能夠執(zhí)行第一方面或第一方面中任意一種實(shí)施方式中所述的圖像編輯方法。

18、本公開的實(shí)施例提供的技術(shù)方案可以包括以下有益效果：獲取待編輯圖像以及用戶輸入的對待編輯圖像進(jìn)行擴(kuò)展編輯的描述信息，基于待編輯圖像以及描述信息，生成對待編輯圖像進(jìn)行擴(kuò)展編輯后的目標(biāo)圖像，擴(kuò)展區(qū)域與待編輯圖像中的待編輯區(qū)域之間的風(fēng)格類似。

19、應(yīng)當(dāng)理解的是，以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的，并不能限制本公開。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：梁蕓浩
技術(shù)所有人：北京小米移動軟件有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

圖像編輯方法、裝置及存儲介質(zhì)與流程

圖像編輯方法、裝置及存儲介質(zhì)與流程