本發(fā)明實施例涉及人工智能,尤其涉及一種基于多模態(tài)數(shù)據(jù)的分類方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、多模態(tài)分類任務(wù)旨在通過融合來自不同數(shù)據(jù)模態(tài)(如文本、圖像、聲音等)的信息,提高模型對復(fù)雜數(shù)據(jù)的理解和分類能力。該任務(wù)廣泛應(yīng)用于情感識別、醫(yī)療診斷、行為識別等領(lǐng)域。然而,由于不同模態(tài)數(shù)據(jù)在特征分布、表示方式以及信息量上的差異,多模態(tài)數(shù)據(jù)的有效融合仍然是一個關(guān)鍵挑戰(zhàn)。因此,如何提高模型基于多模態(tài)數(shù)據(jù)的分類結(jié)果的準確度,至關(guān)重要。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種基于多模態(tài)數(shù)據(jù)的分類方法、裝置、設(shè)備及介質(zhì),以提高模型基于多模態(tài)數(shù)據(jù)的分類結(jié)果的準確度。
2、根據(jù)本發(fā)明的一方面,提供了一種基于多模態(tài)數(shù)據(jù)的分類方法,包括:
3、獲取待分類對象在候選模態(tài)下的待分類數(shù)據(jù);其中,所述候選模態(tài)包括文本模態(tài)、視覺模態(tài)和音頻模態(tài);
4、將所述待分類數(shù)據(jù)輸入至訓(xùn)練好的多模態(tài)分類模型中,得到對象分類結(jié)果;
5、其中,所述多模態(tài)分類模型基于樣本訓(xùn)練對象的文本樣本數(shù)據(jù)、視覺樣本數(shù)據(jù)和音頻樣本數(shù)據(jù)共同訓(xùn)練得到。
6、根據(jù)本發(fā)明的另一方面,提供了一種基于多模態(tài)數(shù)據(jù)的分類裝置,包括:
7、待分類數(shù)據(jù)獲取模塊,用于獲取待分類對象在候選模態(tài)下的待分類數(shù)據(jù);其中,所述候選模態(tài)包括文本模態(tài)、視覺模態(tài)和音頻模態(tài);
8、分類結(jié)果確定模塊,用于將所述待分類數(shù)據(jù)輸入至訓(xùn)練好的多模態(tài)分類模型中,得到對象分類結(jié)果;
9、其中,所述多模態(tài)分類模型基于樣本訓(xùn)練對象的文本樣本數(shù)據(jù)、視覺樣本數(shù)據(jù)和音頻樣本數(shù)據(jù)共同訓(xùn)練得到。
10、根據(jù)本發(fā)明的另一方面,提供了一種電子設(shè)備,包括:
11、一個或多個處理器;
12、存儲器,用于存儲一個或多個程序;
13、當一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器能夠執(zhí)行本發(fā)明實施例所提供的任意一種基于多模態(tài)數(shù)據(jù)的分類方法。
14、根據(jù)本發(fā)明的另一方面,提供了一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)存儲有計算機指令,計算機指令用于使處理器執(zhí)行時實現(xiàn)本發(fā)明實施例所提供的任意一種基于多模態(tài)數(shù)據(jù)的分類方法。
15、本發(fā)明實施例提供了一種基于多模態(tài)數(shù)據(jù)的分類方案,通過獲取待分類對象在候選模態(tài)下的待分類數(shù)據(jù);其中,候選模態(tài)包括文本模態(tài)、視覺模態(tài)和音頻模態(tài);將待分類數(shù)據(jù)輸入至訓(xùn)練好的多模態(tài)分類模型中,得到對象分類結(jié)果;其中,多模態(tài)分類模型基于樣本訓(xùn)練對象的文本樣本數(shù)據(jù)、視覺樣本數(shù)據(jù)和音頻樣本數(shù)據(jù)共同訓(xùn)練得到。上述方案,通過根據(jù)樣本訓(xùn)練對象的文本樣本數(shù)據(jù)、視覺樣本數(shù)據(jù)和音頻樣本數(shù)據(jù)對多模態(tài)分類模型進行訓(xùn)練,以使多模態(tài)分類模型能夠較好對待分類對象在候選模態(tài)下的待分類數(shù)據(jù)進行處理,提高了基于訓(xùn)練好的多模態(tài)分類模型確定待分類對象的對象分類結(jié)果的準確度,即提高了多模態(tài)分類模型基于多模態(tài)數(shù)據(jù)確定的分類結(jié)果的準確度。
16、應(yīng)當理解,本部分所描述的內(nèi)容并非旨在標識本發(fā)明的實施例的關(guān)鍵或重要特征,也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過以下的說明書而變得容易理解。
1.一種基于多模態(tài)數(shù)據(jù)的分類方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多模態(tài)分類模型基于以下方式訓(xùn)練得到:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述樣本關(guān)系圖像對應(yīng)的圖像屬性矩陣,將所述樣本關(guān)系圖像中的圖像邊向圖像節(jié)點進行屬性上的對齊,得到更新后的邊度矩陣,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述點邊關(guān)系矩陣、所述節(jié)點權(quán)重矩陣和所述邊權(quán)重矩陣,確定點邊權(quán)重矩陣,包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)更新后的邊度矩陣和所述圖像屬性矩陣,確定所述樣本訓(xùn)練對象的目標樣本向量,并根據(jù)所述目標樣本向量,確定所述多模態(tài)分類模型的預(yù)測分類結(jié)果,包括:
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述預(yù)測分類結(jié)果、相應(yīng)樣本訓(xùn)練對象的實際分類結(jié)果、空間損失值和屬性損失值,確定所述多模態(tài)分類模型的模型損失值,包括:
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述確定所述候選樣本向量中的空間基準向量和空間對齊向量,包括:
8.一種基于多模態(tài)數(shù)據(jù)的分類裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述的一種基于多模態(tài)數(shù)據(jù)的分類方法。