1.一種基于場(chǎng)景圖的多對(duì)象文本生成圖像語(yǔ)義評(píng)測(cè)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)文本提示和生成圖像進(jìn)行多模態(tài)對(duì)象特征編碼,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)用戶輸入的文本進(jìn)行解析,是通過(guò)基于規(guī)則的文本解析找到文本中各元素之間的依賴關(guān)系,從而得到文本中的每一個(gè)關(guān)系及其主體和客體;所述對(duì)文本中的對(duì)象進(jìn)行編碼,是通過(guò)在目標(biāo)檢測(cè)與定位數(shù)據(jù)集上對(duì)預(yù)訓(xùn)練clip模型進(jìn)行微調(diào),采用微調(diào)后的clip模型作為文本編碼器對(duì)主體與客體的文本進(jìn)行編碼,得到文本對(duì)象特征。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)生成圖像進(jìn)行候選區(qū)域劃分,是通過(guò)在目標(biāo)檢測(cè)數(shù)據(jù)集上訓(xùn)練的候選區(qū)域生成模型生成多個(gè)候選的邊界框;所述對(duì)候選區(qū)域進(jìn)行編碼,是采用微調(diào)后的clip模型作為圖像編碼器對(duì)生成圖像進(jìn)行編碼,并通過(guò)roialign方法根據(jù)每一個(gè)邊界框裁剪特征圖,得到每一個(gè)候選區(qū)域的圖像對(duì)象特征。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算文本對(duì)象特征和圖像對(duì)象特征的相似度,包括進(jìn)行文本與圖像節(jié)點(diǎn)匹配,所述文本與圖像節(jié)點(diǎn)匹配包括兩個(gè)優(yōu)化目標(biāo),分別旨在最小化文本對(duì)象與圖像對(duì)象之間語(yǔ)義距離,以及最小化選中的圖像區(qū)域兩兩之間的重疊區(qū)域,通過(guò)兩個(gè)優(yōu)化目標(biāo)從生成圖像中的多個(gè)候選區(qū)域中為每一個(gè)文本對(duì)象找到與之對(duì)應(yīng)的圖像對(duì)象。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)文本提示和生成圖像中的對(duì)象關(guān)系進(jìn)行編碼,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述視覺(jué)關(guān)系特征采用三階段并行的視覺(jué)關(guān)系編碼網(wǎng)絡(luò)得到,包括以下步驟:
8.一種基于場(chǎng)景圖的多對(duì)象文本生成圖像語(yǔ)義評(píng)測(cè)系統(tǒng),其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被配置為由所述處理器執(zhí)行,所述計(jì)算機(jī)程序包括用于執(zhí)行權(quán)利要求1~7中任一項(xiàng)所述方法的指令。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被計(jì)算機(jī)執(zhí)行時(shí),實(shí)現(xiàn)權(quán)利要求1~7中任一項(xiàng)所述的方法。