本發(fā)明屬于人工智能,具體涉及一種復(fù)雜文檔的全局語境分析方法及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的飛速發(fā)展,電子文檔已成為人們獲取信息、交流思想的重要工具。然而,面對(duì)海量的文檔數(shù)據(jù),如何高效地提取、組織和利用其中的信息,成為了一個(gè)亟待解決的問題。傳統(tǒng)的文檔處理方法往往局限于簡(jiǎn)單的文本提取和關(guān)鍵詞檢索,無法深入挖掘文檔內(nèi)在的語義結(jié)構(gòu)和知識(shí)關(guān)聯(lián),從而限制了信息的有效利用。
2、為文檔構(gòu)建知識(shí)圖譜作為一種前沿的文檔分析策略應(yīng)運(yùn)而生,它不僅能夠助力生成精煉的摘要內(nèi)容,還能實(shí)現(xiàn)高效的內(nèi)容檢索功能。但值得注意的是,從文檔中抽取實(shí)體與關(guān)系以構(gòu)建知識(shí)圖譜的過程,時(shí)常面臨實(shí)體關(guān)系錯(cuò)綜復(fù)雜、易于混淆的挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的上述不足,本發(fā)明提供一種復(fù)雜文檔的全局語境分析方法及系統(tǒng),以解決上述技術(shù)問題。
2、第一方面,本發(fā)明提供一種復(fù)雜文檔的全局語境分析方法,包括:
3、通過對(duì)目標(biāo)文檔進(jìn)行版面分析,為所述目標(biāo)文檔生成目錄;
4、識(shí)別目標(biāo)文檔中的圖片的文字信息,并通過對(duì)所述文字信息和相鄰文字內(nèi)容進(jìn)行語義分析,建立圖片與文字內(nèi)容的關(guān)聯(lián)關(guān)系;
5、基于所述目錄的標(biāo)題構(gòu)建基礎(chǔ)知識(shí)圖譜,并逐步對(duì)標(biāo)題對(duì)應(yīng)的段落進(jìn)行語義分析,為基礎(chǔ)知識(shí)圖譜添加實(shí)體和關(guān)系,得到全局知識(shí)圖譜;
6、利用知識(shí)圖譜嵌入方法將全局知識(shí)圖譜中的實(shí)體和關(guān)系映射為低維向量,并利用圖注意力網(wǎng)絡(luò)模型對(duì)嵌入后的全局知識(shí)圖譜進(jìn)行全局關(guān)系提?。?/p>
7、基于所述全局關(guān)系構(gòu)建全局語境鏈條,并基于所述全局語境鏈條對(duì)全局知識(shí)圖譜的關(guān)系進(jìn)行更新。
8、在一個(gè)可選的實(shí)施方式中,通過對(duì)目標(biāo)文檔進(jìn)行版面分析,為所述目標(biāo)文檔生成目錄,包括:
9、利用版面分析模型解析所述目標(biāo)文檔的版面特征,所述版面特征包括段落分布、標(biāo)題格式參數(shù)、標(biāo)題內(nèi)容、段落格式參數(shù);
10、利用規(guī)則算法,基于所述版面特征構(gòu)建標(biāo)題層級(jí)體系;
11、基于所述標(biāo)題層級(jí)體系構(gòu)建標(biāo)題與段落的對(duì)應(yīng)關(guān)系,并基于所述對(duì)應(yīng)關(guān)系生成目錄;
12、監(jiān)控目標(biāo)文檔的更新內(nèi)容,基于所述更新內(nèi)容同步更新所述目錄。
13、在一個(gè)可選的實(shí)施方式中,識(shí)別目標(biāo)文檔中的圖片的文字信息,并通過對(duì)所述文字信息和相鄰文字內(nèi)容進(jìn)行語義分析,建立圖片與文字內(nèi)容的關(guān)聯(lián)關(guān)系,包括:
14、利用光學(xué)字符識(shí)別技術(shù)從圖片中提取文字信息;
15、根據(jù)所述圖片在目標(biāo)文檔中的位置,提取所述圖片的相鄰文字段落;
16、利用關(guān)鍵詞匹配技術(shù)從相鄰文字段落中篩選出與所述文字信息匹配的目標(biāo)段落,并為所述圖片和所述目標(biāo)段落設(shè)置關(guān)聯(lián)標(biāo)簽;
17、對(duì)所述文字信息和所述目標(biāo)段落進(jìn)行語義分析,從目標(biāo)段落中篩選出與所述文字信息的語義匹配的一個(gè)或多個(gè)句子;
18、為所述文字信息與語義匹配的句子添加獨(dú)立標(biāo)識(shí),所述獨(dú)立標(biāo)識(shí)用于指示所述文字信息與語義匹配的句子為不可分割的綜合內(nèi)容體;
19、在生成文檔層次結(jié)構(gòu)時(shí),為圖片確定相對(duì)于其關(guān)聯(lián)文本的具體層次位置,使圖文內(nèi)容作為一個(gè)層次單元一同展示。
20、在一個(gè)可選的實(shí)施方式中,基于所述目錄的標(biāo)題構(gòu)建基礎(chǔ)知識(shí)圖譜,并逐步對(duì)標(biāo)題對(duì)應(yīng)的段落進(jìn)行語義分析,為基礎(chǔ)知識(shí)圖譜添加實(shí)體和關(guān)系,得到全局知識(shí)圖譜,包括:
21、從目錄的標(biāo)題中抽取實(shí)體和實(shí)體關(guān)系,并基于抽取的實(shí)體和實(shí)體關(guān)系構(gòu)建基礎(chǔ)知識(shí)圖譜;
22、獲取目錄中的最下級(jí)標(biāo)題,獲取最下級(jí)標(biāo)題對(duì)應(yīng)的局部知識(shí)圖譜,所述局部知識(shí)圖譜包含所述最下級(jí)標(biāo)題對(duì)應(yīng)的實(shí)體;
23、基于目錄獲取最下級(jí)標(biāo)題對(duì)應(yīng)的目標(biāo)段落,從所述目標(biāo)段落抽取實(shí)體和關(guān)系,并基于抽取的實(shí)體和關(guān)系更新所述局部知識(shí)圖譜;
24、遍歷所有最下級(jí)標(biāo)題,得到全局知識(shí)圖譜。
25、在一個(gè)可選的實(shí)施方式中,利用知識(shí)圖譜嵌入方法將全局知識(shí)圖譜中的實(shí)體和關(guān)系映射為低維向量,并利用圖注意力網(wǎng)絡(luò)模型對(duì)嵌入后的全局知識(shí)圖譜進(jìn)行全局關(guān)系提取,包括:
26、采用翻譯模型將全局知識(shí)圖譜中的實(shí)體和關(guān)系映射為低維向量,設(shè)置所述翻譯模型的損失函數(shù)為負(fù)對(duì)數(shù)似然損失;
27、將實(shí)體和關(guān)系的低維向量作為圖注意力網(wǎng)絡(luò)模型的輸入,所述圖注意力網(wǎng)絡(luò)模型通過計(jì)算實(shí)體之間的注意力系數(shù)和聚合鄰居節(jié)點(diǎn)的信息提取全局知識(shí)圖譜中實(shí)體之間的關(guān)系;
28、利用圖注意力網(wǎng)絡(luò)模型對(duì)不同局部知識(shí)圖譜中的實(shí)體進(jìn)行相似度計(jì)算,并基于計(jì)算結(jié)果構(gòu)建不同局部知識(shí)圖譜中的實(shí)體的關(guān)聯(lián)關(guān)系;
29、將全局知識(shí)圖譜中的實(shí)體之間的關(guān)系和不同局部知識(shí)圖譜中的實(shí)體的關(guān)聯(lián)關(guān)系整合為全局關(guān)系。
30、在一個(gè)可選的實(shí)施方式中,所述圖注意力網(wǎng)絡(luò)模型的訓(xùn)練方法包括:
31、從文檔中提取語義相似或相關(guān)的句子、段落,構(gòu)成正樣本對(duì),從文檔中選擇語義不相關(guān)的句子或段落,構(gòu)成負(fù)樣本對(duì);
32、使用預(yù)訓(xùn)練的分層注意力網(wǎng)絡(luò)模型,對(duì)正樣本對(duì)及負(fù)樣本對(duì)中的句子或段落進(jìn)行編碼,生成高維度的語義向量;
33、采用對(duì)比損失函數(shù),以使模型在語義空間中拉近正樣本對(duì)的距離,拉遠(yuǎn)負(fù)樣本對(duì)的距離;
34、利用編碼后的正樣本對(duì)及負(fù)樣本對(duì)訓(xùn)練圖注意力網(wǎng)絡(luò)模型。
35、在一個(gè)可選的實(shí)施方式中,基于所述全局關(guān)系構(gòu)建全局語境鏈條,基于所述全局語境鏈條對(duì)全局知識(shí)圖譜的關(guān)系進(jìn)行更新,包括:
36、利用圖輪算法基于所述全局關(guān)系構(gòu)建全局語境鏈條;
37、將全局語境鏈條涉及的實(shí)體和關(guān)系與全局知識(shí)圖譜進(jìn)行匹配,以基于匹配結(jié)果為所述全局知識(shí)圖譜補(bǔ)全缺失的實(shí)體關(guān)系。
38、第二方面,本發(fā)明提供一種復(fù)雜文檔的全局語境分析系統(tǒng),包括:
39、目錄生成模塊,用于通過對(duì)目標(biāo)文檔進(jìn)行版面分析,為所述目標(biāo)文檔生成目錄;
40、圖片關(guān)聯(lián)模塊,用于識(shí)別目標(biāo)文檔中的圖片的文字信息,并通過對(duì)所述文字信息和相鄰文字內(nèi)容進(jìn)行語義分析,建立圖片與文字內(nèi)容的關(guān)聯(lián)關(guān)系;
41、圖譜構(gòu)建模塊,用于基于所述目錄的標(biāo)題構(gòu)建基礎(chǔ)知識(shí)圖譜,并逐步對(duì)標(biāo)題對(duì)應(yīng)的段落進(jìn)行語義分析,為基礎(chǔ)知識(shí)圖譜添加實(shí)體和關(guān)系,得到全局知識(shí)圖譜;
42、全局分析模塊,用于利用知識(shí)圖譜嵌入方法將全局知識(shí)圖譜中的實(shí)體和關(guān)系映射為低維向量,并利用圖注意力網(wǎng)絡(luò)模型對(duì)嵌入后的全局知識(shí)圖譜進(jìn)行全局關(guān)系提??;
43、語境增強(qiáng)模塊,用于基于所述全局關(guān)系構(gòu)建全局語境鏈條,并基于所述全局語境鏈條對(duì)全局知識(shí)圖譜的關(guān)系進(jìn)行更新。
44、本發(fā)明的有益效果在于,本發(fā)明提供的復(fù)雜文檔的全局語境分析方法及系統(tǒng),通過整合自動(dòng)化目錄生成、圖片與文字關(guān)聯(lián)、知識(shí)圖譜構(gòu)建與關(guān)系提取以及全局語境鏈條與關(guān)系更新等技術(shù)手段,顯著提升了知識(shí)圖譜與文檔全局語境的一致性。這不僅降低了用戶在文檔管理方面的負(fù)擔(dān),還提高了文檔信息的利用效率和價(jià)值。
45、此外,本發(fā)明設(shè)計(jì)原理可靠,結(jié)構(gòu)簡(jiǎn)單,具有非常廣泛的應(yīng)用前景。
1.一種復(fù)雜文檔的全局語境分析方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過對(duì)目標(biāo)文檔進(jìn)行版面分析,為所述目標(biāo)文檔生成目錄,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,識(shí)別目標(biāo)文檔中的圖片的文字信息,并通過對(duì)所述文字信息和相鄰文字內(nèi)容進(jìn)行語義分析,建立圖片與文字內(nèi)容的關(guān)聯(lián)關(guān)系,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述目錄的標(biāo)題構(gòu)建基礎(chǔ)知識(shí)圖譜,并逐步對(duì)標(biāo)題對(duì)應(yīng)的段落進(jìn)行語義分析,為基礎(chǔ)知識(shí)圖譜添加實(shí)體和關(guān)系,得到全局知識(shí)圖譜,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,利用知識(shí)圖譜嵌入方法將全局知識(shí)圖譜中的實(shí)體和關(guān)系映射為低維向量,并利用圖注意力網(wǎng)絡(luò)模型對(duì)嵌入后的全局知識(shí)圖譜進(jìn)行全局關(guān)系提取,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述圖注意力網(wǎng)絡(luò)模型的訓(xùn)練方法包括:
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,基于所述全局關(guān)系構(gòu)建全局語境鏈條,基于所述全局語境鏈條對(duì)全局知識(shí)圖譜的關(guān)系進(jìn)行更新,包括:
8.一種復(fù)雜文檔的全局語境分析系統(tǒng),其特征在于,包括:
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述目錄生成模塊包括:
10.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述圖片關(guān)聯(lián)模塊包括: