一種基于場(chǎng)景圖的多對(duì)象文本生成圖像語(yǔ)義評(píng)測(cè)方法和系統(tǒng)

文檔序號(hào)：41950754發(fā)布日期：2025-05-16 14:10閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于場(chǎng)景圖的多對(duì)象文本生成圖像語(yǔ)義評(píng)測(cè)方法和系統(tǒng)

技術(shù)特征：

1.一種基于場(chǎng)景圖的多對(duì)象文本生成圖像語(yǔ)義評(píng)測(cè)方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)文本提示和生成圖像進(jìn)行多模態(tài)對(duì)象特征編碼，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述對(duì)用戶輸入的文本進(jìn)行解析，是通過(guò)基于規(guī)則的文本解析找到文本中各元素之間的依賴關(guān)系，從而得到文本中的每一個(gè)關(guān)系及其主體和客體；所述對(duì)文本中的對(duì)象進(jìn)行編碼，是通過(guò)在目標(biāo)檢測(cè)與定位數(shù)據(jù)集上對(duì)預(yù)訓(xùn)練clip模型進(jìn)行微調(diào)，采用微調(diào)后的clip模型作為文本編碼器對(duì)主體與客體的文本進(jìn)行編碼，得到文本對(duì)象特征。

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述對(duì)生成圖像進(jìn)行候選區(qū)域劃分，是通過(guò)在目標(biāo)檢測(cè)數(shù)據(jù)集上訓(xùn)練的候選區(qū)域生成模型生成多個(gè)候選的邊界框；所述對(duì)候選區(qū)域進(jìn)行編碼，是采用微調(diào)后的clip模型作為圖像編碼器對(duì)生成圖像進(jìn)行編碼，并通過(guò)roialign方法根據(jù)每一個(gè)邊界框裁剪特征圖，得到每一個(gè)候選區(qū)域的圖像對(duì)象特征。

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述計(jì)算文本對(duì)象特征和圖像對(duì)象特征的相似度，包括進(jìn)行文本與圖像節(jié)點(diǎn)匹配，所述文本與圖像節(jié)點(diǎn)匹配包括兩個(gè)優(yōu)化目標(biāo)，分別旨在最小化文本對(duì)象與圖像對(duì)象之間語(yǔ)義距離，以及最小化選中的圖像區(qū)域兩兩之間的重疊區(qū)域，通過(guò)兩個(gè)優(yōu)化目標(biāo)從生成圖像中的多個(gè)候選區(qū)域中為每一個(gè)文本對(duì)象找到與之對(duì)應(yīng)的圖像對(duì)象。

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)文本提示和生成圖像中的對(duì)象關(guān)系進(jìn)行編碼，包括：

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述視覺(jué)關(guān)系特征采用三階段并行的視覺(jué)關(guān)系編碼網(wǎng)絡(luò)得到，包括以下步驟：

8.一種基于場(chǎng)景圖的多對(duì)象文本生成圖像語(yǔ)義評(píng)測(cè)系統(tǒng)，其特征在于，包括：

9.一種計(jì)算機(jī)設(shè)備，其特征在于，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被配置為由所述處理器執(zhí)行，所述計(jì)算機(jī)程序包括用于執(zhí)行權(quán)利要求1～7中任一項(xiàng)所述方法的指令。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被計(jì)算機(jī)執(zhí)行時(shí)，實(shí)現(xiàn)權(quán)利要求1～7中任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本發(fā)明涉及一種基于場(chǎng)景圖的多對(duì)象文本生成圖像語(yǔ)義評(píng)測(cè)方法和系統(tǒng)。該方法包括：對(duì)文本提示和生成圖像進(jìn)行多模態(tài)對(duì)象特征編碼，得到文本對(duì)象特征和圖像對(duì)象特征；計(jì)算文本對(duì)象特征和圖像對(duì)象特征的相似度，得到對(duì)象的語(yǔ)義一致性；對(duì)文本提示和生成圖像中的對(duì)象關(guān)系進(jìn)行編碼，得到文本關(guān)系特征和視覺(jué)關(guān)系特征；計(jì)算文本關(guān)系特征和視覺(jué)關(guān)系特征的相似度，得到關(guān)系的語(yǔ)義一致性；綜合對(duì)象的語(yǔ)義一致性和關(guān)系的語(yǔ)義一致性，得到最終的文本生成圖像語(yǔ)義一致性評(píng)測(cè)結(jié)果。本發(fā)明能夠考慮到生成圖像與用戶給定的文本提示之間的一致性，在包含多個(gè)對(duì)象的復(fù)雜場(chǎng)景中能夠?qū)ι蓤D像的對(duì)象存在性、對(duì)象屬性、對(duì)象關(guān)系等方面做出客觀、正確的評(píng)測(cè)結(jié)果。

技術(shù)研發(fā)人員：彭宇新,王梓爍
受保護(hù)的技術(shù)使用者：北京大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/15

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于場(chǎng)景圖的多對(duì)象文本生成圖像語(yǔ)義評(píng)測(cè)方法和系統(tǒng)