最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于多模實(shí)體自動(dòng)提取、分類(lèi)和關(guān)聯(lián)的知識(shí)庫(kù)構(gòu)建方法和存儲(chǔ)介質(zhì)與流程

文檔序號(hào):41953018發(fā)布日期:2025-05-16 14:16閱讀:2來(lái)源:國(guó)知局
基于多模實(shí)體自動(dòng)提取、分類(lèi)和關(guān)聯(lián)的知識(shí)庫(kù)構(gòu)建方法和存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及信息,特別是指基于多模實(shí)體自動(dòng)提取、分類(lèi)和關(guān)聯(lián)的知識(shí)庫(kù)構(gòu)建方法和存儲(chǔ)介質(zhì)。


背景技術(shù):

1、企業(yè)知識(shí)圖譜通過(guò)實(shí)體、屬性、關(guān)系等結(jié)構(gòu)化元素,將知識(shí)資源進(jìn)行精確的表示和關(guān)聯(lián),使得知識(shí)更加易于理解和利用。它涵蓋了企業(yè)內(nèi)部和外部的各類(lèi)知識(shí)資源,包括員工、產(chǎn)品、服務(wù)、流程、文檔、客戶、市場(chǎng)、競(jìng)爭(zhēng)對(duì)手等,形成一個(gè)完整、準(zhǔn)確、關(guān)聯(lián)的知識(shí)網(wǎng)絡(luò)。這不僅有助于企業(yè)實(shí)現(xiàn)對(duì)知識(shí)的全面覆蓋,減少信息孤島和冗余,還促進(jìn)了知識(shí)的集中管理和分類(lèi),方便員工查詢、瀏覽和獲取所需知識(shí)。但現(xiàn)有的知識(shí)庫(kù)構(gòu)建方法,盡管在一定程度上認(rèn)識(shí)到了企業(yè)知識(shí)圖譜的重要性,并嘗試將其應(yīng)用于知識(shí)管理實(shí)踐中,卻仍然面臨著諸多挑戰(zhàn)和局限性,未能充分發(fā)揮知識(shí)圖譜的潛力。

2、現(xiàn)有的知識(shí)庫(kù)構(gòu)建方法在實(shí)體識(shí)別與抽取上往往依賴于傳統(tǒng)的文本處理技術(shù),這些技術(shù)在面對(duì)復(fù)雜多變的企業(yè)數(shù)據(jù)時(shí),其準(zhǔn)確性和效率都大打折扣。


技術(shù)實(shí)現(xiàn)思路

1、為了解決現(xiàn)有技術(shù)存在知識(shí)庫(kù)準(zhǔn)確性低的技術(shù)問(wèn)題,本發(fā)明提供了如下技術(shù)方案:

2、一方面,提供了基于多模實(shí)體自動(dòng)提取、分類(lèi)和關(guān)聯(lián)的知識(shí)庫(kù)構(gòu)建方法,所述方法包括:

3、s1、對(duì)文本數(shù)據(jù)和圖像數(shù)據(jù)分別進(jìn)行預(yù)處理;

4、s2、基于雙向編碼器和隨機(jī)場(chǎng)模型提取所述文本數(shù)據(jù)中的實(shí)體,并通過(guò)語(yǔ)句分析算法獲取所述文本數(shù)據(jù)中的語(yǔ)義關(guān)系;

5、s3、基于目標(biāo)檢測(cè)模型獲取所述圖像數(shù)據(jù)中的實(shí)體,并通過(guò)圖像描述生成算法獲取所述圖像數(shù)據(jù)中的語(yǔ)義關(guān)系;

6、s4、對(duì)所述文本數(shù)據(jù)中的實(shí)體和圖像數(shù)據(jù)中的實(shí)體進(jìn)行特征融合,獲得多模實(shí)體;

7、s5、構(gòu)建多模態(tài)深度學(xué)習(xí)模型,并在所述多模態(tài)深度學(xué)習(xí)模型中引入注意力機(jī)制;基于所述多模態(tài)深度學(xué)習(xí)模型對(duì)所述多模實(shí)體進(jìn)行分類(lèi),獲得分類(lèi)后的多模實(shí)體;

8、s6、獲取所述文本數(shù)據(jù)中實(shí)體和圖像數(shù)據(jù)中實(shí)體之間的并聯(lián)關(guān)系,基于所述并聯(lián)關(guān)系、文本數(shù)據(jù)中的語(yǔ)義關(guān)系和圖像數(shù)據(jù)中的語(yǔ)義關(guān)系構(gòu)建三元組;

9、s7、基于所述分類(lèi)后的多模實(shí)體和所述三元組構(gòu)建知識(shí)庫(kù);

10、s8、對(duì)所述知識(shí)庫(kù)進(jìn)行質(zhì)量評(píng)估,基于評(píng)估結(jié)果對(duì)所述知識(shí)庫(kù)進(jìn)行優(yōu)化。

11、作為本發(fā)明的一種可選實(shí)施例,可選地,在步驟s2中基于雙向編碼器和隨機(jī)場(chǎng)模型提取所述文本數(shù)據(jù)中的實(shí)體,并通過(guò)語(yǔ)句分析算法獲取所述文本數(shù)據(jù)中的語(yǔ)義關(guān)系包括:

12、s201、利用所述雙向編碼器對(duì)預(yù)處理后的所述文本數(shù)據(jù)進(jìn)行編碼,捕捉上下文信息;

13、s202、利用隨機(jī)場(chǎng)模型對(duì)編碼后的文本數(shù)據(jù)進(jìn)行序列標(biāo)注,識(shí)別出實(shí)體邊界;

14、s203、基于所述上下文信息和實(shí)體邊界確定實(shí)體類(lèi)型,并提取所述文本數(shù)據(jù)中的實(shí)體;

15、s204、利用依存句法分析算法解析所述文本數(shù)據(jù)中的句子結(jié)構(gòu),獲取所述句子中實(shí)體間的語(yǔ)法關(guān)系。

16、作為本發(fā)明的一種可選實(shí)施例,可選地,在步驟s3中基于目標(biāo)檢測(cè)模型獲取所述圖像數(shù)據(jù)中的實(shí)體,并通過(guò)圖像描述生成算法獲取所述圖像數(shù)據(jù)中的語(yǔ)義關(guān)系:

17、s301、利用目標(biāo)檢測(cè)模型對(duì)所述圖像數(shù)據(jù)中的物體進(jìn)行定位,并識(shí)別出物體,將所述物體作為實(shí)體;

18、s302、對(duì)所述物體進(jìn)行標(biāo)簽分類(lèi),獲取每個(gè)物體的語(yǔ)義標(biāo)簽;

19、s303、基于所述語(yǔ)義標(biāo)簽利用圖像描述生成算法生成與所述圖像數(shù)據(jù)中物體相關(guān)的描述性語(yǔ)句,基于所述描述性語(yǔ)句獲取所述圖像數(shù)據(jù)中的語(yǔ)義關(guān)系。

20、作為本發(fā)明的一種可選實(shí)施例,可選地,在步驟s4中獲得多模實(shí)體的表達(dá)式為:

21、

22、其中,f表示融合后的多模實(shí)體特征,h()表示特征融合函數(shù),ft表示文本實(shí)體的特征向量集合,fg表示圖像實(shí)體的特征向量集合,ψ表示特征融合函數(shù)的參數(shù)集合,σ()表示激活函數(shù),n表示文本特征的數(shù)量,i表示第i個(gè)文本特征,αi表示第i個(gè)文本特征的權(quán)重,ftext表示文本特征提取函數(shù),ei表示第i個(gè)文本特征,表示文本特征提取函數(shù)的參數(shù),m表示圖像特征的數(shù)量,j表示第j個(gè)圖像特征,βj表示第j個(gè)圖像特征的權(quán)重,fimage()表示圖像特征提取函數(shù),bj和cj表示圖像中兩個(gè)不同的圖像特征,表示圖像特征提取函數(shù)的參數(shù)。

23、作為本發(fā)明的一種可選實(shí)施例,可選地,在步驟s5中構(gòu)建多模態(tài)深度學(xué)習(xí)模型,并在所述多模態(tài)深度學(xué)習(xí)模型中引入注意力機(jī)制包括:

24、s501、提取歷史文本數(shù)據(jù)和歷史圖像數(shù)據(jù),并對(duì)所述歷史文本數(shù)據(jù)和歷史圖像數(shù)據(jù)分別進(jìn)行預(yù)處理;

25、s502、構(gòu)建初始的多模態(tài)深度學(xué)習(xí)模型,將預(yù)處理后的歷史文本數(shù)據(jù)和歷史圖像數(shù)據(jù)輸入所述初始的多模態(tài)深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的多模態(tài)深度學(xué)習(xí)模型;

26、s503、在所述訓(xùn)練后的多模態(tài)深度學(xué)習(xí)模型中引入注意力機(jī)制,并對(duì)所述多模態(tài)深度學(xué)習(xí)模型進(jìn)行優(yōu)化;

27、s504、利用所述訓(xùn)練后的多模態(tài)深度學(xué)習(xí)模型對(duì)所述多模實(shí)體進(jìn)行分類(lèi)。

28、作為本發(fā)明的一種可選實(shí)施例,可選地,所述對(duì)所述多模實(shí)體進(jìn)行分類(lèi)的表達(dá)式為:

29、

30、其中,c表示分類(lèi)后的多模實(shí)體標(biāo)簽集合,j()表示實(shí)體分類(lèi)函數(shù),f表示融合后的多模實(shí)體特征,ω表示多模態(tài)深度學(xué)習(xí)模型的參數(shù)集合,ck表示第k個(gè)輸出的類(lèi)別標(biāo)簽,l表示標(biāo)簽總數(shù),表示取概率最大值,l表示類(lèi)別集合,c表示類(lèi)別標(biāo)簽,ωk表示多模態(tài)深度學(xué)習(xí)模型的分類(lèi)參數(shù)。

31、作為本發(fā)明的一種可選實(shí)施例,可選地,在步驟s6中獲取所述文本數(shù)據(jù)中實(shí)體和圖像數(shù)據(jù)中實(shí)體之間的并聯(lián)關(guān)系包括:

32、s601、基于實(shí)體相似度計(jì)算建立所述文本數(shù)據(jù)中的實(shí)體和圖像數(shù)據(jù)中的實(shí)體之間的映射關(guān)系;

33、s602、基于所述映射關(guān)系,識(shí)別出所述文本數(shù)據(jù)中實(shí)體和圖像數(shù)據(jù)中實(shí)體之間的并聯(lián)關(guān)系,所述并聯(lián)關(guān)系表示所述文本數(shù)據(jù)中的實(shí)體和圖像數(shù)據(jù)中的實(shí)體之間存在關(guān)聯(lián)且相互獨(dú)立;

34、s603、對(duì)所述并聯(lián)關(guān)系進(jìn)行驗(yàn)證。

35、作為本發(fā)明的一種可選實(shí)施例,可選地,在步驟s6中構(gòu)建三元組的表達(dá)式為:

36、ttriplet=ktriplet(etext,eimage,rtext,rimage,ξtriplet)

37、={(ux,r,uy)∣(ux,uy)∈u,r∈r(ux,uy,xr)}

38、其中,ttriplet表示構(gòu)建的三元組集合,ktriplet表示三元組構(gòu)建函數(shù),etext表示文本實(shí)體集合,eimage表示圖像實(shí)體集合,rtext表示文本實(shí)體間的語(yǔ)義關(guān)系集合,rimage表示圖像實(shí)體間的語(yǔ)義關(guān)系集合,ξtriplet表示三元組構(gòu)建函數(shù)的參數(shù)集合,ttriplet表示實(shí)體x、關(guān)系和實(shí)體y三的元組,r()表示語(yǔ)義關(guān)系集合,xr表示語(yǔ)義關(guān)系參數(shù)。

39、作為本發(fā)明的一種可選實(shí)施例,可選地,在步驟s7中基于所述分類(lèi)后的多模實(shí)體和所述三元組構(gòu)建知識(shí)庫(kù)包括:

40、s701、構(gòu)建初始數(shù)據(jù)庫(kù);

41、s702、對(duì)所述多模實(shí)體進(jìn)行標(biāo)準(zhǔn)化,并對(duì)每個(gè)所述多模實(shí)體進(jìn)行唯一標(biāo)識(shí),建立所述多模實(shí)體的索引;

42、s703、將所述三元組中的關(guān)系和實(shí)體映射到所述初始知識(shí)庫(kù)中;

43、s704、通過(guò)知識(shí)表示模型將所述三元組中的關(guān)系和實(shí)體以圖的形式進(jìn)行表示,獲得知識(shí)圖譜;

44、s705、向所述知識(shí)圖譜中的實(shí)體添加屬性信息,獲得知識(shí)庫(kù)。

45、另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)上述基于多模實(shí)體自動(dòng)提取、分類(lèi)和關(guān)聯(lián)的知識(shí)庫(kù)構(gòu)建方法中的任一項(xiàng)方法。

46、本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果至少包括:本發(fā)明首先通過(guò)對(duì)文本數(shù)據(jù)和圖像數(shù)據(jù)進(jìn)行預(yù)處理,能夠提升后續(xù)實(shí)體提取和語(yǔ)義關(guān)系獲取的準(zhǔn)確性和效率。接著,利用雙向編碼器和隨機(jī)場(chǎng)模型提取文本數(shù)據(jù)中的實(shí)體,并通過(guò)語(yǔ)句分析算法獲取文本數(shù)據(jù)中的語(yǔ)義關(guān)系,這種方法相較于傳統(tǒng)的文本處理技術(shù),能夠更準(zhǔn)確地識(shí)別實(shí)體和語(yǔ)義關(guān)系。同時(shí),通過(guò)目標(biāo)檢測(cè)模型獲取圖像數(shù)據(jù)中的實(shí)體,并利用圖像描述生成算法獲取圖像數(shù)據(jù)中的語(yǔ)義關(guān)系,使得圖像數(shù)據(jù)中的知識(shí)也能夠被有效地提取和利用。進(jìn)一步地,通過(guò)對(duì)文本數(shù)據(jù)中的實(shí)體和圖像數(shù)據(jù)中的實(shí)體進(jìn)行特征融合,獲得多模實(shí)體,這有助于將不同模態(tài)的數(shù)據(jù)進(jìn)行關(guān)聯(lián)和整合。然后,構(gòu)建多模態(tài)深度學(xué)習(xí)模型,并在模型中引入注意力機(jī)制,對(duì)多模實(shí)體進(jìn)行分類(lèi),這種分類(lèi)方法能夠更準(zhǔn)確地識(shí)別出不同類(lèi)別的實(shí)體。此外,本發(fā)明還通過(guò)獲取文本數(shù)據(jù)中實(shí)體和圖像數(shù)據(jù)中實(shí)體之間的并聯(lián)關(guān)系,以及基于這些并聯(lián)關(guān)系、文本數(shù)據(jù)中的語(yǔ)義關(guān)系和圖像數(shù)據(jù)中的語(yǔ)義關(guān)系構(gòu)建三元組,從而實(shí)現(xiàn)了知識(shí)的關(guān)聯(lián)和整合。最后,基于分類(lèi)后的多模實(shí)體和三元組構(gòu)建知識(shí)庫(kù),并通過(guò)知識(shí)表示模型將三元組中的關(guān)系和實(shí)體以圖的形式進(jìn)行表示,獲得知識(shí)圖譜,這使得知識(shí)更加易于理解和利用,且提高了知識(shí)庫(kù)的準(zhǔn)確性。因此,本發(fā)明實(shí)施例提供的技術(shù)方案能夠解決現(xiàn)有技術(shù)存在知識(shí)庫(kù)準(zhǔn)確性低的技術(shù)問(wèn)題,實(shí)現(xiàn)知識(shí)的有效提取、關(guān)聯(lián)和整合,提高企業(yè)的知識(shí)管理水平。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1