本發(fā)明涉及一種事件檢測方法,具體涉及一種融合多源信息的事件檢測方法及裝置。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)及經(jīng)濟的發(fā)展,人們能夠在網(wǎng)絡(luò)上獲取大量各個不同領(lǐng)域的相關(guān)的新聞信息,而這些新聞中不同領(lǐng)域的相關(guān)事件信息對該領(lǐng)域研究者是十分重要的信息。因此事件檢測等信息抽取任務(wù)對新聞事件領(lǐng)域有非常重要的作用。作為事件抽取的子任務(wù)事件檢測,其目的是從非結(jié)構(gòu)化的語言文本中獲取其中包含的事件觸發(fā)詞及對應(yīng)的事件類型,其中事件觸發(fā)詞為標(biāo)志某一事件發(fā)生的詞語。
2、然而,現(xiàn)有的相關(guān)研究對于文本的多源性的關(guān)注較少,大都在單源信息的背景下進行事件檢測的工作,聚焦于單源文本本身包含的信息進行研究工作,所以存在事件檢測不全面導(dǎo)致檢測結(jié)果不準(zhǔn)確的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明是為了解決上述問題而進行的,目的在于提供一種融合多源信息的事件檢測方法及裝置。
2、本發(fā)明提供了一種融合多源信息的事件檢測方法,用于根據(jù)包含指定事件的指定文本和多個現(xiàn)有文本得到該指定事件的事件類型,具有這樣的特征,包括以下步驟:步驟s1,對指定文本和各個現(xiàn)有文本分別進行預(yù)處理,得到對應(yīng)的預(yù)處理指定文本和預(yù)處理現(xiàn)有文本;步驟s2,將預(yù)處理指定文本和現(xiàn)有的觸發(fā)詞抽取模板一同輸入候選觸發(fā)詞抽取模型,得到預(yù)處理指定文本對應(yīng)的候選觸發(fā)詞;步驟s3,將預(yù)處理指定文本分別和各個預(yù)處理現(xiàn)有文本進行文本匹配判斷是否存在匹配文本,若是,則將與預(yù)處理指定文本匹配的預(yù)處理現(xiàn)有文本作為匹配文本并進入步驟s4,若否,則將候選觸發(fā)詞作為觸發(fā)詞并進入步驟s7;步驟s4,對各個匹配文本,將匹配文本和觸發(fā)詞抽取模板一同輸入候選觸發(fā)詞抽取模型,得到匹配文本對應(yīng)的候選觸發(fā)詞;步驟s5,根據(jù)各個匹配文本對應(yīng)的候選觸發(fā)詞構(gòu)建候選觸發(fā)詞提示模板;步驟s6,將各個匹配文本、候選觸發(fā)詞提示模板和包含預(yù)處理指定文本對應(yīng)的候選觸發(fā)詞的觸發(fā)詞抽取模板一同輸入觸發(fā)詞抽取模型,得到觸發(fā)詞;步驟s7,將觸發(fā)詞輸入觸發(fā)詞分類模型得到事件類型。
3、在本發(fā)明提供的融合多源信息的事件檢測方法中,還可以具有這樣的特征:其中,在步驟s2中,將預(yù)處理指定文本和觸發(fā)詞抽取模板進行拼接并將拼接結(jié)果作為候選觸發(fā)詞抽取模型的輸入,在步驟s4中,將匹配文本和觸發(fā)詞抽取模板進行拼接并將拼接結(jié)果作為候選觸發(fā)詞抽取模型的輸入,在步驟s6中,將所有匹配文本、候選觸發(fā)詞提示模板和包含預(yù)處理指定文本對應(yīng)的候選觸發(fā)詞的觸發(fā)詞抽取模板進行拼接,并將拼接結(jié)果作為觸發(fā)詞抽取模型的輸入。
4、在本發(fā)明提供的融合多源信息的事件檢測方法中,還可以具有這樣的特征:其中,候選觸發(fā)詞抽取模型和觸發(fā)詞抽取模型均基于現(xiàn)有的生成式預(yù)訓(xùn)練語言模型構(gòu)造得到。
5、在本發(fā)明提供的融合多源信息的事件檢測方法中,還可以具有這樣的特征:其中,在步驟s5中,候選觸發(fā)詞提示模板包含各個匹配文本對應(yīng)的所有候選觸發(fā)詞。
6、在本發(fā)明提供的融合多源信息的事件檢測方法中,還可以具有這樣的特征:其中,觸發(fā)詞分類模型包括bert預(yù)訓(xùn)練語言模型和多層感知機,bert預(yù)訓(xùn)練語言模型根據(jù)觸發(fā)詞生成句子的隱藏層表示向量,多層感知機將句子的隱藏層表示向量映射到標(biāo)簽維度,得到事件類型。
7、在本發(fā)明提供的融合多源信息的事件檢測方法中,還可以具有這樣的特征:其中,在步驟s1中,預(yù)處理包括去除文本中非正文的冗余內(nèi)容。
8、在本發(fā)明提供的融合多源信息的事件檢測方法中,還可以具有這樣的特征:其中,根據(jù)多個現(xiàn)有訓(xùn)練文本及其對應(yīng)的目標(biāo)候選觸發(fā)詞、目標(biāo)觸發(fā)詞和事件類型標(biāo)簽,訓(xùn)練候選觸發(fā)詞抽取模型、觸發(fā)詞抽取模型和觸發(fā)詞分類模型的過程,包括以下步驟:步驟t1,將所有現(xiàn)有訓(xùn)練文本進行預(yù)處理,并結(jié)合對應(yīng)的真實觸發(fā)詞和事件類型標(biāo)簽構(gòu)建訓(xùn)練數(shù)據(jù)集;步驟t2,從訓(xùn)練數(shù)據(jù)集中選取現(xiàn)有訓(xùn)練文本輸入候選觸發(fā)詞抽取模型生成預(yù)測候選觸發(fā)詞,并根據(jù)預(yù)測候選觸發(fā)詞和對應(yīng)的目標(biāo)候選觸發(fā)詞計算損失對候選觸發(fā)詞抽取模型進行微調(diào);步驟t3,重復(fù)步驟t2直至達到第一預(yù)設(shè)終止條件,則得到訓(xùn)練好的候選觸發(fā)詞抽取模型,并進入步驟t4;步驟t4,從訓(xùn)練數(shù)據(jù)集中選取現(xiàn)有訓(xùn)練文本,結(jié)合訓(xùn)練好的候選觸發(fā)詞抽取模型構(gòu)建對應(yīng)的輸入數(shù)據(jù)輸入觸發(fā)詞抽取模型生成預(yù)測觸發(fā)詞,并根據(jù)預(yù)測觸發(fā)詞和對應(yīng)的目標(biāo)觸發(fā)詞計算損失對觸發(fā)詞抽取模型進行微調(diào);步驟t5,重復(fù)步驟t4直至達到第二預(yù)設(shè)終止條件,則得到訓(xùn)練好的觸發(fā)詞抽取模型,并進入步驟t6;步驟t6,從訓(xùn)練數(shù)據(jù)集中選取現(xiàn)有訓(xùn)練文本,結(jié)合訓(xùn)練好的候選觸發(fā)詞抽取模型和訓(xùn)練好的觸發(fā)詞抽取模型構(gòu)建對應(yīng)的輸入數(shù)據(jù)輸入觸發(fā)詞分類模型生成預(yù)測標(biāo)簽,并根據(jù)預(yù)測標(biāo)簽和對應(yīng)的事件類型標(biāo)簽計算損失對觸發(fā)詞分類模型進行微調(diào);步驟t7,重復(fù)步驟t6直至達到第三預(yù)設(shè)終止條件,則得到訓(xùn)練好的觸發(fā)詞分類模型。
9、本發(fā)明還提供了一種融合多源信息的事件檢測裝置,用于根據(jù)包含指定事件的指定文本和多個現(xiàn)有文本得到該指定事件的事件類型,具有這樣的特征,包括:預(yù)處理模塊,用于對指定文本和各個現(xiàn)有文本分別進行預(yù)處理,得到對應(yīng)的預(yù)處理指定文本和預(yù)處理現(xiàn)有文本;候選觸發(fā)詞生成模塊,包含候選觸發(fā)詞抽取模型和現(xiàn)有的觸發(fā)詞抽取模板,用于將文本和觸發(fā)詞抽取模板一同輸入候選觸發(fā)詞抽取模型,得到文本對應(yīng)的候選觸發(fā)詞,文本包括預(yù)處理指定文本和匹配文本;匹配判斷模塊,用于將預(yù)處理指定文本分別和各個預(yù)處理現(xiàn)有文本進行文本匹配判斷是否存在匹配文本,若是,則將與預(yù)處理指定文本匹配的預(yù)處理現(xiàn)有文本作為匹配文本,若否,則將候選觸發(fā)詞作為觸發(fā)詞;模板構(gòu)建模塊,用于根據(jù)各個匹配文本對應(yīng)的候選觸發(fā)詞構(gòu)建候選觸發(fā)詞提示模板;觸發(fā)詞生成模塊,包含觸發(fā)詞抽取模型,用于將各個匹配文本、候選觸發(fā)詞提示模板和包含預(yù)處理指定文本對應(yīng)的候選觸發(fā)詞的觸發(fā)詞抽取模板一同輸入觸發(fā)詞抽取模型,得到觸發(fā)詞;事件類型生成模塊,包含觸發(fā)詞分類模型,用于將觸發(fā)詞輸入觸發(fā)詞分類模型得到事件類型。
10、發(fā)明的作用與效果
11、根據(jù)本發(fā)明所涉及的融合多源信息的事件檢測方法及裝置,因為,一方面,通過文本匹配從現(xiàn)有文本中選取與指定文本具有同一指定事件的匹配文本;另一方面,通過觸發(fā)詞抽取模板、候選觸發(fā)詞提示模板、候選觸發(fā)詞抽取模型和觸發(fā)詞抽取模型,結(jié)合匹配文本和指定文本生成觸發(fā)詞,并將觸發(fā)詞輸入觸發(fā)詞分類模型得到對應(yīng)的事件類型。所以,本發(fā)明的融合多源信息的事件檢測方法及裝置能夠生成準(zhǔn)確的事件檢測結(jié)果。
1.一種融合多源信息的事件檢測方法,用于根據(jù)包含指定事件的指定文本和多個現(xiàn)有文本得到該指定事件的事件類型,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的融合多源信息的事件檢測方法,其特征在于:
3.根據(jù)權(quán)利要求1所述的融合多源信息的事件檢測方法,其特征在于:
4.根據(jù)權(quán)利要求1所述的融合多源信息的事件檢測方法,其特征在于:
5.根據(jù)權(quán)利要求1所述的融合多源信息的事件檢測方法,其特征在于:
6.根據(jù)權(quán)利要求1所述的融合多源信息的事件檢測方法,其特征在于:
7.根據(jù)權(quán)利要求1所述的融合多源信息的事件檢測方法,其特征在于:
8.一種融合多源信息的事件檢測裝置,用于根據(jù)包含指定事件的指定文本和多個現(xiàn)有文本得到該指定事件的事件類型,其特征在于,包括: