最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于場(chǎng)景圖的多對(duì)象文本生成圖像語(yǔ)義評(píng)測(cè)方法和系統(tǒng)

文檔序號(hào):41950754發(fā)布日期:2025-05-16 14:10閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.一種基于場(chǎng)景圖的多對(duì)象文本生成圖像語(yǔ)義評(píng)測(cè)方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)文本提示和生成圖像進(jìn)行多模態(tài)對(duì)象特征編碼,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)用戶輸入的文本進(jìn)行解析,是通過(guò)基于規(guī)則的文本解析找到文本中各元素之間的依賴關(guān)系,從而得到文本中的每一個(gè)關(guān)系及其主體和客體;所述對(duì)文本中的對(duì)象進(jìn)行編碼,是通過(guò)在目標(biāo)檢測(cè)與定位數(shù)據(jù)集上對(duì)預(yù)訓(xùn)練clip模型進(jìn)行微調(diào),采用微調(diào)后的clip模型作為文本編碼器對(duì)主體與客體的文本進(jìn)行編碼,得到文本對(duì)象特征。

4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)生成圖像進(jìn)行候選區(qū)域劃分,是通過(guò)在目標(biāo)檢測(cè)數(shù)據(jù)集上訓(xùn)練的候選區(qū)域生成模型生成多個(gè)候選的邊界框;所述對(duì)候選區(qū)域進(jìn)行編碼,是采用微調(diào)后的clip模型作為圖像編碼器對(duì)生成圖像進(jìn)行編碼,并通過(guò)roialign方法根據(jù)每一個(gè)邊界框裁剪特征圖,得到每一個(gè)候選區(qū)域的圖像對(duì)象特征。

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算文本對(duì)象特征和圖像對(duì)象特征的相似度,包括進(jìn)行文本與圖像節(jié)點(diǎn)匹配,所述文本與圖像節(jié)點(diǎn)匹配包括兩個(gè)優(yōu)化目標(biāo),分別旨在最小化文本對(duì)象與圖像對(duì)象之間語(yǔ)義距離,以及最小化選中的圖像區(qū)域兩兩之間的重疊區(qū)域,通過(guò)兩個(gè)優(yōu)化目標(biāo)從生成圖像中的多個(gè)候選區(qū)域中為每一個(gè)文本對(duì)象找到與之對(duì)應(yīng)的圖像對(duì)象。

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)文本提示和生成圖像中的對(duì)象關(guān)系進(jìn)行編碼,包括:

7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述視覺(jué)關(guān)系特征采用三階段并行的視覺(jué)關(guān)系編碼網(wǎng)絡(luò)得到,包括以下步驟:

8.一種基于場(chǎng)景圖的多對(duì)象文本生成圖像語(yǔ)義評(píng)測(cè)系統(tǒng),其特征在于,包括:

9.一種計(jì)算機(jī)設(shè)備,其特征在于,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被配置為由所述處理器執(zhí)行,所述計(jì)算機(jī)程序包括用于執(zhí)行權(quán)利要求1~7中任一項(xiàng)所述方法的指令。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被計(jì)算機(jī)執(zhí)行時(shí),實(shí)現(xiàn)權(quán)利要求1~7中任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本發(fā)明涉及一種基于場(chǎng)景圖的多對(duì)象文本生成圖像語(yǔ)義評(píng)測(cè)方法和系統(tǒng)。該方法包括:對(duì)文本提示和生成圖像進(jìn)行多模態(tài)對(duì)象特征編碼,得到文本對(duì)象特征和圖像對(duì)象特征;計(jì)算文本對(duì)象特征和圖像對(duì)象特征的相似度,得到對(duì)象的語(yǔ)義一致性;對(duì)文本提示和生成圖像中的對(duì)象關(guān)系進(jìn)行編碼,得到文本關(guān)系特征和視覺(jué)關(guān)系特征;計(jì)算文本關(guān)系特征和視覺(jué)關(guān)系特征的相似度,得到關(guān)系的語(yǔ)義一致性;綜合對(duì)象的語(yǔ)義一致性和關(guān)系的語(yǔ)義一致性,得到最終的文本生成圖像語(yǔ)義一致性評(píng)測(cè)結(jié)果。本發(fā)明能夠考慮到生成圖像與用戶給定的文本提示之間的一致性,在包含多個(gè)對(duì)象的復(fù)雜場(chǎng)景中能夠?qū)ι蓤D像的對(duì)象存在性、對(duì)象屬性、對(duì)象關(guān)系等方面做出客觀、正確的評(píng)測(cè)結(jié)果。

技術(shù)研發(fā)人員:彭宇新,王梓爍
受保護(hù)的技術(shù)使用者:北京大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
當(dāng)前第2頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1