最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于多模態(tài)數(shù)據(jù)的分類方法、裝置、設(shè)備及介質(zhì)

文檔序號:41951813發(fā)布日期:2025-05-16 14:13閱讀:4來源:國知局
基于多模態(tài)數(shù)據(jù)的分類方法、裝置、設(shè)備及介質(zhì)

本發(fā)明實施例涉及人工智能,尤其涉及一種基于多模態(tài)數(shù)據(jù)的分類方法、裝置、設(shè)備及介質(zhì)。


背景技術(shù):

1、多模態(tài)分類任務(wù)旨在通過融合來自不同數(shù)據(jù)模態(tài)(如文本、圖像、聲音等)的信息,提高模型對復(fù)雜數(shù)據(jù)的理解和分類能力。該任務(wù)廣泛應(yīng)用于情感識別、醫(yī)療診斷、行為識別等領(lǐng)域。然而,由于不同模態(tài)數(shù)據(jù)在特征分布、表示方式以及信息量上的差異,多模態(tài)數(shù)據(jù)的有效融合仍然是一個關(guān)鍵挑戰(zhàn)。因此,如何提高模型基于多模態(tài)數(shù)據(jù)的分類結(jié)果的準確度,至關(guān)重要。


技術(shù)實現(xiàn)思路

1、本發(fā)明提供一種基于多模態(tài)數(shù)據(jù)的分類方法、裝置、設(shè)備及介質(zhì),以提高模型基于多模態(tài)數(shù)據(jù)的分類結(jié)果的準確度。

2、根據(jù)本發(fā)明的一方面,提供了一種基于多模態(tài)數(shù)據(jù)的分類方法,包括:

3、獲取待分類對象在候選模態(tài)下的待分類數(shù)據(jù);其中,所述候選模態(tài)包括文本模態(tài)、視覺模態(tài)和音頻模態(tài);

4、將所述待分類數(shù)據(jù)輸入至訓(xùn)練好的多模態(tài)分類模型中,得到對象分類結(jié)果;

5、其中,所述多模態(tài)分類模型基于樣本訓(xùn)練對象的文本樣本數(shù)據(jù)、視覺樣本數(shù)據(jù)和音頻樣本數(shù)據(jù)共同訓(xùn)練得到。

6、根據(jù)本發(fā)明的另一方面,提供了一種基于多模態(tài)數(shù)據(jù)的分類裝置,包括:

7、待分類數(shù)據(jù)獲取模塊,用于獲取待分類對象在候選模態(tài)下的待分類數(shù)據(jù);其中,所述候選模態(tài)包括文本模態(tài)、視覺模態(tài)和音頻模態(tài);

8、分類結(jié)果確定模塊,用于將所述待分類數(shù)據(jù)輸入至訓(xùn)練好的多模態(tài)分類模型中,得到對象分類結(jié)果;

9、其中,所述多模態(tài)分類模型基于樣本訓(xùn)練對象的文本樣本數(shù)據(jù)、視覺樣本數(shù)據(jù)和音頻樣本數(shù)據(jù)共同訓(xùn)練得到。

10、根據(jù)本發(fā)明的另一方面,提供了一種電子設(shè)備,包括:

11、一個或多個處理器;

12、存儲器,用于存儲一個或多個程序;

13、當一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器能夠執(zhí)行本發(fā)明實施例所提供的任意一種基于多模態(tài)數(shù)據(jù)的分類方法。

14、根據(jù)本發(fā)明的另一方面,提供了一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)存儲有計算機指令,計算機指令用于使處理器執(zhí)行時實現(xiàn)本發(fā)明實施例所提供的任意一種基于多模態(tài)數(shù)據(jù)的分類方法。

15、本發(fā)明實施例提供了一種基于多模態(tài)數(shù)據(jù)的分類方案,通過獲取待分類對象在候選模態(tài)下的待分類數(shù)據(jù);其中,候選模態(tài)包括文本模態(tài)、視覺模態(tài)和音頻模態(tài);將待分類數(shù)據(jù)輸入至訓(xùn)練好的多模態(tài)分類模型中,得到對象分類結(jié)果;其中,多模態(tài)分類模型基于樣本訓(xùn)練對象的文本樣本數(shù)據(jù)、視覺樣本數(shù)據(jù)和音頻樣本數(shù)據(jù)共同訓(xùn)練得到。上述方案,通過根據(jù)樣本訓(xùn)練對象的文本樣本數(shù)據(jù)、視覺樣本數(shù)據(jù)和音頻樣本數(shù)據(jù)對多模態(tài)分類模型進行訓(xùn)練,以使多模態(tài)分類模型能夠較好對待分類對象在候選模態(tài)下的待分類數(shù)據(jù)進行處理,提高了基于訓(xùn)練好的多模態(tài)分類模型確定待分類對象的對象分類結(jié)果的準確度,即提高了多模態(tài)分類模型基于多模態(tài)數(shù)據(jù)確定的分類結(jié)果的準確度。

16、應(yīng)當理解,本部分所描述的內(nèi)容并非旨在標識本發(fā)明的實施例的關(guān)鍵或重要特征,也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過以下的說明書而變得容易理解。



技術(shù)特征:

1.一種基于多模態(tài)數(shù)據(jù)的分類方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多模態(tài)分類模型基于以下方式訓(xùn)練得到:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述樣本關(guān)系圖像對應(yīng)的圖像屬性矩陣,將所述樣本關(guān)系圖像中的圖像邊向圖像節(jié)點進行屬性上的對齊,得到更新后的邊度矩陣,包括:

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述點邊關(guān)系矩陣、所述節(jié)點權(quán)重矩陣和所述邊權(quán)重矩陣,確定點邊權(quán)重矩陣,包括:

5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)更新后的邊度矩陣和所述圖像屬性矩陣,確定所述樣本訓(xùn)練對象的目標樣本向量,并根據(jù)所述目標樣本向量,確定所述多模態(tài)分類模型的預(yù)測分類結(jié)果,包括:

6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述預(yù)測分類結(jié)果、相應(yīng)樣本訓(xùn)練對象的實際分類結(jié)果、空間損失值和屬性損失值,確定所述多模態(tài)分類模型的模型損失值,包括:

7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述確定所述候選樣本向量中的空間基準向量和空間對齊向量,包括:

8.一種基于多模態(tài)數(shù)據(jù)的分類裝置,其特征在于,包括:

9.一種電子設(shè)備,其特征在于,包括:

10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述的一種基于多模態(tài)數(shù)據(jù)的分類方法。


技術(shù)總結(jié)
本發(fā)明實施例公開了一種基于多模態(tài)數(shù)據(jù)的分類方法、裝置、設(shè)備及介質(zhì)。該方法包括:獲取待分類對象在候選模態(tài)下的待分類數(shù)據(jù);其中,候選模態(tài)包括文本模態(tài)、視覺模態(tài)和音頻模態(tài);將待分類數(shù)據(jù)輸入至訓(xùn)練好的多模態(tài)分類模型中,得到對象分類結(jié)果;其中,多模態(tài)分類模型基于樣本訓(xùn)練對象的文本樣本數(shù)據(jù)、視覺樣本數(shù)據(jù)和音頻樣本數(shù)據(jù)共同訓(xùn)練得到。提高了多模態(tài)分類模型基于多模態(tài)數(shù)據(jù)確定的分類結(jié)果的準確度。

技術(shù)研發(fā)人員:武芳宇,張健,趙培正,王秋鋒,梁山,林永義
受保護的技術(shù)使用者:西交利物浦大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1