最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種模型訓(xùn)練及圖像描述生成方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號:41949330發(fā)布日期:2025-05-16 14:07閱讀:4來源:國知局
一種模型訓(xùn)練及圖像描述生成方法、裝置、設(shè)備及介質(zhì)與流程

本技術(shù)涉及多模態(tài)圖像處理及深度學(xué)習(xí),尤其涉及一種圖像描述生成模型的訓(xùn)練及圖像描述生成方法、裝置、設(shè)備及介質(zhì)。


背景技術(shù):

1、圖像描述生成技術(shù)是當(dāng)下人工智能領(lǐng)域的一個關(guān)鍵研究方向,它融合了自然語言處理(natural?language?processing,nlp)與計算機視覺(computer?vision,cv)兩大領(lǐng)域的技術(shù),目標是依據(jù)給定的圖像,自動輸出與之對應(yīng)的文字描述。

2、目前,圖像描述生成方法主要依托深度學(xué)習(xí)框架,將圖像處理與自然語言生成兩大技術(shù)方向有機融合。在借助深度學(xué)習(xí)框架進行圖像描述生成時,先通過編碼器對圖像進行特征提取和編碼,然后由解碼器依據(jù)這些編碼信息生成相應(yīng)的文字描述。例如,視覺變換(vision?transformer,vit)、殘差網(wǎng)絡(luò)(residual?network,resnet)等視覺模型常用于圖像編碼,而qwen、llama等語言模型則用于解碼。在這種方法中,通常將一張圖片搭配簡單指令(如‘請簡要描述該圖片’)作為模型輸入,由模型生成圖像描述文字。但在實際應(yīng)用場景中,同一張圖片往往存在多種不同的解讀方式,這主要取決于觀察者的視角以及所具備的背景知識。

3、因此,為了更精準地生成滿足用戶需求的圖像描述,可以引入上下文信息作為圖像應(yīng)用的背景,以此實現(xiàn)對上下文和圖像內(nèi)容的融合理解,讓模型更有針對性地捕捉關(guān)鍵信息,生成更貼合用戶期望的描述。不過,要是上下文信息過于強烈或者具有誤導(dǎo)性,模型可能會生成與上下文類似或偏向上下文的文本,進而忽視對圖像本身的描述。這種偏差會導(dǎo)致生成的描述與圖像內(nèi)容不符,降低描述的準確性和實用性。

4、基于上述情況,如何在引入上下文信息的同時,確保對圖像本身的準確描述,成為了當(dāng)前圖像描述生成技術(shù)面臨的重要挑戰(zhàn)之一。


技術(shù)實現(xiàn)思路

1、本技術(shù)提供了一種圖像描述生成模型的訓(xùn)練及圖像描述生成方法、裝置、設(shè)備及介質(zhì),用于解決現(xiàn)有圖像描述生成任務(wù)中模型生成的答案存在角度偏差或者歧義的問題。

2、第一方面,本技術(shù)提供了一種圖像描述生成模型的訓(xùn)練方法,所述方法包括:

3、獲取圖像樣本集;其中,所述圖像樣本集中包含有模型輸入數(shù)據(jù)以及所述模型輸入數(shù)據(jù)對應(yīng)的參考圖像描述,任一模型輸入數(shù)據(jù)包括圖像樣本、該圖像樣本的上下文信息以及處理指令,所述參考圖像描述包括正向圖像描述以及負向圖像描述;

4、基于所述圖像樣本集,對預(yù)先訓(xùn)練的基礎(chǔ)圖像描述生成模型進行迭代微調(diào);其中,所述基礎(chǔ)圖像描述生成模型為已具備圖像描述生成能力的模型;

5、其中,在任一次迭代微調(diào)過程中:

6、針對任一模型輸入數(shù)據(jù),基于該模型輸入數(shù)據(jù)以及該圖像樣本對應(yīng)的任一條參考圖像描述,確定一條訓(xùn)練數(shù)據(jù)對;通過當(dāng)前已微調(diào)的圖像描述生成模型,基于該模型輸入數(shù)據(jù),獲取圖像描述的第一概率分布;以及,通過所述基礎(chǔ)圖像描述生成模型,基于該模型輸入數(shù)據(jù),獲取圖像描述的第二概率分布;通過增量優(yōu)化損失函數(shù),基于所述第一概率分布、所述第二概率分布以及所述參考圖像描述,確定損失值;

7、根據(jù)各損失值,對所述當(dāng)前已微調(diào)的圖像描述生成模型進行微調(diào),以得到訓(xùn)練完成的圖像描述生成模型;

8、其中,所述增量優(yōu)化損失函數(shù)通過如下公式表示:

9、l(πθ,πref)=ex,y∈d[w(y)(1-v(x,y;β))]??(1)

10、

11、zref=ex∈d[βkl(πθ(y|x)||πref(y|x))]??????(4)

12、其中,l()表示所述增量優(yōu)化損失函數(shù),πθ表示所述當(dāng)前已微調(diào)的圖像描述生成模型,πref表示所述基礎(chǔ)圖像描述生成模型,e()表示期望函數(shù),x表示模型輸入數(shù)據(jù),y表示所述參考圖像描述,d表示所述圖像樣本集,w(y)表示所述參考圖像描述的權(quán)重函數(shù),λ+表示正向圖像描述的預(yù)設(shè)權(quán)重,λ-表示負向圖像描述的預(yù)設(shè)權(quán)重,v(x,y;β)表示所述當(dāng)前已微調(diào)的圖像描述生成模型輸出所述參考圖像描述的置信度,σ表示sigmoid函數(shù),β表示溫度超參數(shù),用于調(diào)節(jié)所述當(dāng)前已微調(diào)的圖像描述生成模型輸出的平滑程度,πθ(y|x)表示所述第一概率分布,πref(y|x)表示所述第二概率分布,zref表示所述基礎(chǔ)圖像描述生成模型的期望對數(shù)似然比,kl(πθ(y|x)||πref(y|x))表示所述第一概率分布與所述第二概率分布之間的kullback-leibler離散度。

13、第二方面,本技術(shù)還提供了一種基于上述所述模型的圖像描述生成方法,所述方法包括:

14、獲取待處理模型輸入數(shù)據(jù);其中,所述待處理模型輸入數(shù)據(jù)包括待處理圖像、所述待處理圖像的上下文以及所述待處理圖像的處理指令;

15、通過預(yù)先訓(xùn)練的圖像描述生成模型,基于所述待處理模型輸入數(shù)據(jù),獲取所述待處理圖像的圖像描述信息。

16、第三方面,本技術(shù)還提供了一種圖像描述生成模型的訓(xùn)練裝置,所述裝置包括:

17、獲取模塊,用于獲取圖像樣本集;其中,所述圖像樣本集中包含有模型輸入數(shù)據(jù)以及所述模型輸入數(shù)據(jù)對應(yīng)的參考圖像描述,任一模型輸入數(shù)據(jù)包括圖像樣本、該圖像樣本的上下文信息以及處理指令,所述參考圖像描述包括正向圖像描述以及負向圖像描述;

18、訓(xùn)練模塊,用于基于所述圖像樣本集,對預(yù)先訓(xùn)練的基礎(chǔ)圖像描述生成模型進行迭代微調(diào);其中,所述基礎(chǔ)圖像描述生成模型為已具備圖像描述生成能力的模型;

19、其中,在任一次迭代微調(diào)過程中:

20、針對任一模型輸入數(shù)據(jù),基于該模型輸入數(shù)據(jù)以及該圖像樣本對應(yīng)的任一條參考圖像描述,確定一條訓(xùn)練數(shù)據(jù)對;通過當(dāng)前已微調(diào)的圖像描述生成模型,基于該模型輸入數(shù)據(jù),獲取圖像描述的第一概率分布;以及,通過所述基礎(chǔ)圖像描述生成模型,基于該模型輸入數(shù)據(jù),獲取圖像描述的第二概率分布;通過增量優(yōu)化損失函數(shù),基于所述第一概率分布、所述第二概率分布以及所述參考圖像描述,確定損失值;

21、根據(jù)各損失值,對所述當(dāng)前已微調(diào)的圖像描述生成模型進行微調(diào),以得到訓(xùn)練完成的圖像描述生成模型;

22、其中,所述增量優(yōu)化損失函數(shù)通過如下公式表示:

23、l(πθ,πref)=ex,y∈d[w(y)(1-v(x,y;β))]??(1)

24、

25、zref=ex∈d[βkl(πθ(y|x)||πref(y|x))]??????(4)

26、其中,l()表示所述增量優(yōu)化損失函數(shù),πθ表示所述當(dāng)前已微調(diào)的圖像描述生成模型,πref表示所述基礎(chǔ)圖像描述生成模型,e()表示期望函數(shù),x表示模型輸入數(shù)據(jù),y表示所述參考圖像描述,d表示所述圖像樣本集,w(y)表示所述參考圖像描述的權(quán)重函數(shù),λ+表示正向圖像描述的預(yù)設(shè)權(quán)重,λ-表示負向圖像描述的預(yù)設(shè)權(quán)重,v(x,y;β)表示所述當(dāng)前已微調(diào)的圖像描述生成模型輸出所述參考圖像描述的置信度,σ表示sigmoid函數(shù),β表示溫度超參數(shù),用于調(diào)節(jié)所述當(dāng)前已微調(diào)的圖像描述生成模型輸出的平滑程度,πθ(y|x)表示所述第一概率分布,πref(y|x)表示所述第二概率分布,zref表示所述基礎(chǔ)圖像描述生成模型的期望對數(shù)似然比,kl(πθ(y|x)||πref(y|x))表示所述第一概率分布與所述第二概率分布之間的kullback-leibler離散度。

27、第四方面,本技術(shù)還提供了一種基于上述所述模型的圖像描述生成裝置,所述裝置包括:

28、獲取單元,用于獲取待處理模型輸入數(shù)據(jù);其中,所述待處理模型輸入數(shù)據(jù)包括待處理圖像、所述待處理圖像的上下文以及所述待處理圖像的處理指令;

29、處理單元,用于通過預(yù)先訓(xùn)練的圖像描述生成模型,基于所述待處理模型輸入數(shù)據(jù),獲取所述待處理圖像的圖像描述信息。

30、第五方面,本技術(shù)提供了一種計算機設(shè)備,所述計算機設(shè)備包括處理器,所述處理器用于執(zhí)行存儲器中存儲的計算機程序時實現(xiàn)如上述所述圖像描述生成模型的訓(xùn)練方法的步驟,或,實現(xiàn)如上述所述圖像描述生成方法的步驟。

31、第六方面,本技術(shù)提供了一種計算機可讀存儲介質(zhì),其存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述所述圖像描述生成模型的訓(xùn)練方法的步驟,或,實現(xiàn)如上述所述圖像描述生成方法的步驟。

32、本技術(shù)的有益效果如下:

33、1、通過引入正向和負向圖像描述作為參考圖像描述,圖像描述生成模型在訓(xùn)練過程中不僅學(xué)習(xí)如何生成符合圖像內(nèi)容的正向描述,還能學(xué)會區(qū)分與圖像不匹配的負向描述。這使得模型生成的圖像描述更加準確、細致和貼合實際圖像內(nèi)容,減少生成錯誤或不相關(guān)描述的概率。

34、2、迭代微調(diào)過程結(jié)合增量優(yōu)化損失函數(shù),促使模型在基礎(chǔ)模型的能力之上不斷優(yōu)化。通過在多個迭代周期中對不同的訓(xùn)練數(shù)據(jù)對進行學(xué)習(xí)和調(diào)整,模型能夠適應(yīng)各種類型的圖像和多樣化的上下文信息,從而提高其在不同數(shù)據(jù)集和場景下的泛化能力。這意味著模型在面對未見過的圖像時,也能生成合理且準確的描述。

35、3、該訓(xùn)練完成的圖像描述生成模型在生成圖像描述時,可以引入圖像的上下文信息,從而避免單一圖片輸入造成的描述偏差。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1