本發(fā)明屬于圖像生成,具體涉及一種基于場景圖的多對象文本生成圖像語義評測方法和系統(tǒng)。
背景技術:
1、近年來,隨著深度學習的迅速發(fā)展,根據(jù)用戶輸入的文本提示生成對應圖像的文本生成圖像技術呈現(xiàn)爆炸式增長。但不同于圖像分類等視覺任務,文本生成圖像具有生成結果的多樣性,沒有唯一的正確結果,因此如何對圖像生成結果進行客觀、量化的評測,是文本生成圖像任務中的研究難點問題。
2、現(xiàn)有的文本生成圖像評測方法主要分為兩個方面:圖像質(zhì)量評測和語義一致性評測。其中,圖像質(zhì)量評測關注的是生成圖像的質(zhì)量,包括清晰度、真實性、合理性等。代表性的評測指標為fid(fréchet?inception?distance),通過預訓練的視覺骨干模型inceptionnetv3分別為真實圖像集合和生成圖像集合提取視覺特征,然后根據(jù)兩種圖像集合特征分布的均值和方差計算分布間的距離,距離越小,則認為生成的圖像質(zhì)量越高。但fid指標并未考慮到生成圖像是否符合用戶輸入文本提示,即缺少了語義一致性的評測。
3、在語義一致性評測方面,代表性評測指標為clipsim,通過圖文預訓練模型clip為生成的圖像提取圖像特征,并為用戶輸入的文本提示提取文本特征,由于clip模型在大規(guī)模的圖像-文本對上預訓練,能夠?qū)D像、文本特征在語義空間中對齊,因此通過計算圖像特征與文本特征的余弦相似度,可得到圖像與文本語義的一致性,從而對文本生成圖像的語義一致性進行評測。然而,當用戶希望生成的圖像為包含多個對象的復雜場景時,直接使用clip模型進行評測,得到的結果往往與客觀事實不符。具體包括以下幾種情況:“對象存在性”問題:用戶輸入包括多個對象時,生成圖像中往往會遺漏其中某個對象;“對象屬性”問題:用戶為多個對象指定顏色、形狀等屬性時,生成圖像中對象的屬性往往存在混雜或錯誤;“對象關系問題”:當用戶指定多個對象之間的空間位置、動作主客體等關系時,生成圖像中對應的對象之間關系往往存在錯誤。對于上述情況,使用clip模型進行語義一致性評測的結果往往與客觀事實不符。
4、針對上述問題,如何對文本生成圖像模型進行語義一致性評估,在包含多個對象的復雜場景中得到客觀、量化的正確評測結果,就成為了一個具有重要意義的難題。
技術實現(xiàn)思路
1、針對上述難題,本發(fā)明提出了一種基于場景圖的多對象文本生成圖像語義評測方法和系統(tǒng),通過對用戶輸入的文本提示進行解析,得到文本形式的對象及對象間關系,構建文本場景圖,并通過目標檢測模型根據(jù)生成圖像構建視覺場景圖,根據(jù)文本場景圖和視覺場景圖的相似度,實現(xiàn)文本生成圖像的語義評測。
2、為達到以上目的,本發(fā)明采用的技術方案如下:
3、一種基于場景圖的多對象文本生成圖像語義評測方法,包括以下步驟:
4、對文本提示和生成圖像進行多模態(tài)對象特征編碼,得到文本對象特征和圖像對象特征;
5、計算文本對象特征和圖像對象特征的相似度,得到對象的語義一致性;
6、對文本提示和生成圖像中的對象關系進行編碼,得到文本關系特征和視覺關系特征;
7、計算文本關系特征和視覺關系特征的相似度,得到關系的語義一致性;
8、綜合對象的語義一致性和關系的語義一致性,得到最終的文本生成圖像語義一致性評測結果。
9、進一步地,所述對文本提示和生成圖像進行多模態(tài)對象特征編碼,用于解析文本和圖像,為每一個文本對象和圖像對象提取特征,包括以下步驟:
10、(1)文本解析:對用戶輸入的文本進行解析,得到文本中每一個對象及對象間的關系;
11、(2)文本編碼:對步驟(1)得到的文本中的對象進行編碼,得到文本對象特征;
12、(3)圖像解析:對生成的圖像進行候選區(qū)域劃分,生成多個候選區(qū)域,由于候選區(qū)域的數(shù)量大于圖像中圖像對象的數(shù)量,每個候選區(qū)域都包含一個圖像對象或不包含圖像對象;
13、(4)圖像編碼:對步驟(3)中得到的候選區(qū)域進行編碼,得到圖像對象特征。
14、進一步地,上述步驟(1)中,通過基于規(guī)則的文本解析,找到文本中各元素之間的依賴關系,從而得到文本中的每一個關系及其主體和客體。
15、進一步地,上述步驟(2)中,通過在目標檢測與定位數(shù)據(jù)集上對預訓練clip模型進行微調(diào),采用微調(diào)后的clip模型作為文本編碼器對步驟(1)中得到的主體與客體文本進行編碼,得到文本對象特征;
16、進一步地,上述步驟(3)中,通過在目標檢測數(shù)據(jù)集上訓練的候選區(qū)域生成模型(region?proposal?network)生成多個候選的邊界框,作為圖像候選區(qū)域。
17、進一步地,上述步驟(4)中,采用微調(diào)后的clip模型作為圖像編碼器對生成圖像進行編碼,并通過roialign方法根據(jù)每一個邊界框裁剪特征圖,從而得到每一個候選區(qū)域的圖像對象特征。
18、進一步地,所述計算文本對象特征和圖像對象特征的相似度步驟中,包括一種文本與圖像節(jié)點匹配方法,用于為每一個文本對象尋找圖像中與之對應的圖像對象,從而得到生成圖像在對象方面的語義一致性。該方法具體包括兩個優(yōu)化目標,分別旨在最小化文本對象與圖像對象之間語義距離,從而找到最貼近的匹配,以及最小化選中的圖像區(qū)域兩兩之間的重疊區(qū)域,避免將同一個圖像對象重復地分配給不同的文本對象。通過最小化兩個優(yōu)化目標,可從生成圖像中的多個候選區(qū)域中,為每一個文本對象找到與之對應的圖像對象。
19、進一步地,所述對文本提示和生成圖像中的對象關系進行編碼步驟中,包括一種文本與圖像對象關系對齊方法,該方法包括以下步驟:
20、(1)對兩個文本對象及其文本形式的關系進行編碼,得到文本關系特征;
21、(2)對生成圖像中分配給兩個文本對象的兩個候選區(qū)域進行編碼,得到視覺關系特征;
22、(3)通過對比學習的損失函數(shù)訓練文本和圖像關系編碼模型,對齊文本關系特征和視覺關系特征。
23、進一步地,所述計算文本關系特征和視覺關系特征的相似度步驟中,得到關系的語義一致性,包括:根據(jù)文本關系特征和視覺關系特征的余弦相似度,得到生成圖像在關系方面語義一致性。
24、進一步地,所述視覺關系特征采用三階段并行的視覺關系編碼網(wǎng)絡得到,包括以下步驟:
25、文本階段:將待編碼關系的主體和客體以文本形式輸入編碼器,得到第一個視覺特征向量;
26、位置階段:將圖像中主體和客體各自的邊界框以坐標的形式輸入由多層感知機構成的編碼網(wǎng)絡,得到第二個視覺特征向量,其中包含主客體的絕對和相對位置關系信息;
27、視覺語義階段:提取圖像的特征圖,在特征圖上分別根據(jù)主體邊界框、客體邊界框、同時包含主客體的最小邊界框提取三個特征,經(jīng)過拼接后得到包含主客體視覺特征的第三個視覺特征向量;
28、將第一個視覺特征向量、第二個視覺特征向量和第三個視覺特征向量進行拼接并輸入全連接層,得到最終的視覺關系特征。
29、與上述方法對應地,本發(fā)明還提供一種基于場景圖的多對象文本生成圖像語義評測系統(tǒng),其包括:
30、對象的語義一致性計算模塊,用于對文本提示和生成圖像進行多模態(tài)對象特征編碼,得到文本對象特征和圖像對象特征,計算文本對象特征和圖像對象特征的相似度,得到對象的語義一致性;
31、關系的語義一致性計算模塊,用于對文本提示和生成圖像中的對象關系進行編碼,得到文本關系特征和視覺關系特征,計算文本關系特征和視覺關系特征的相似度,得到關系的語義一致性;
32、綜合模塊,用于綜合對象的語義一致性和關系的語義一致性,得到最終的文本生成圖像語義一致性評測結果。
33、本發(fā)明的效果在于:與現(xiàn)有的文本生成圖像評測方法相比,本發(fā)明的文本生成圖像語義評測方法能夠考慮到生成圖像與用戶給定的文本提示之間的一致性,在包含多個對象的復雜場景中,對生成圖像的對象存在性、對象屬性、對象關系等方面做出客觀、正確的評測結果。
34、本發(fā)明之所以具有上述發(fā)明效果,其原因在于:對文本提示和生成圖像分別構建場景圖,能夠得到每一個文本對象、圖像對象、文本關系、視覺關系的特征,通過在特征空間中的對齊,能夠在對象和對象關系兩個層面衡量文本和圖像的語義一致性,從而得到多對象場景下的文本生成圖像語義一致性評測結果。