最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法

文檔序號(hào):41950964發(fā)布日期:2025-05-16 14:11閱讀:4來(lái)源:國(guó)知局
一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法

本發(fā)明涉及自然語(yǔ)言處理與數(shù)據(jù)庫(kù),更具體地說(shuō),它涉及一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法。


背景技術(shù):

1、在當(dāng)今數(shù)字化進(jìn)程不斷加速的時(shí)代背景下,表格數(shù)據(jù)已然成為信息存儲(chǔ)與傳遞的關(guān)鍵載體之一。于企業(yè)運(yùn)營(yíng)而言,財(cái)務(wù)報(bào)表中的各類數(shù)據(jù)表格精準(zhǔn)記錄了營(yíng)收、成本、利潤(rùn)等核心指標(biāo)的詳細(xì)信息,是管理層制定戰(zhàn)略決策的重要依據(jù);在科研領(lǐng)域,實(shí)驗(yàn)數(shù)據(jù)表格有序呈現(xiàn)了不同變量條件下的觀測(cè)結(jié)果,為科研人員探尋規(guī)律、驗(yàn)證假設(shè)提供了不可或缺的素材。然而,對(duì)于非技術(shù)背景的廣大用戶群體來(lái)說(shuō),借助sql語(yǔ)句從這些表格中提取有價(jià)值信息卻存在著顯著的障礙。

2、sql作為一種專業(yè)性較強(qiáng)的數(shù)據(jù)庫(kù)查詢語(yǔ)言,其語(yǔ)法結(jié)構(gòu)復(fù)雜且邏輯嚴(yán)謹(jǐn),要求使用者具備扎實(shí)的編程知識(shí)與豐富的實(shí)踐經(jīng)驗(yàn)。例如,在構(gòu)建多表關(guān)聯(lián)查詢時(shí),不僅需要準(zhǔn)確指定連接條件,還需合理運(yùn)用聚合函數(shù)和篩選子句,方能獲取期望的結(jié)果。這一技術(shù)門檻使得眾多非技術(shù)人員在面對(duì)海量表格數(shù)據(jù)時(shí),往往望而卻步,難以充分挖掘數(shù)據(jù)背后的潛在價(jià)值,極大地限制了數(shù)據(jù)的有效利用與共享。

3、傳統(tǒng)的文本到sql解析方法在應(yīng)對(duì)這一困境時(shí)顯得力不從心?;谝?guī)則匹配的方式,雖在特定簡(jiǎn)單場(chǎng)景下能夠發(fā)揮一定作用,但由于其規(guī)則庫(kù)的局限性,面對(duì)復(fù)雜多變的自然語(yǔ)言表達(dá)和多樣化的表格結(jié)構(gòu),難以實(shí)現(xiàn)精準(zhǔn)且通用的解析。模板生成方法同樣存在諸多弊端,其高度依賴人工精心設(shè)計(jì)的模板,不僅耗費(fèi)大量人力和時(shí)間成本,而且在處理新領(lǐng)域或特殊需求時(shí),靈活性嚴(yán)重不足,無(wú)法滿足實(shí)際應(yīng)用中日益增長(zhǎng)的復(fù)雜性和多樣性需求,迫切需要更為高效、智能的解決方案來(lái)打破這一僵局。


技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的在于提供一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:

3、一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法,包括以下步驟:

4、從指定網(wǎng)站爬取sql語(yǔ)句后,利用大語(yǔ)言模型將sql語(yǔ)句及表格轉(zhuǎn)換為自然語(yǔ)言文本,提取列與表作為正樣本和負(fù)樣本,同時(shí)將獲取的實(shí)驗(yàn)數(shù)據(jù)格式轉(zhuǎn)換為與spider數(shù)據(jù)集一致,通過(guò)創(chuàng)建提示詞模板和使用少樣本框架完成sql語(yǔ)句及表格生成自然語(yǔ)言問題及數(shù)據(jù)庫(kù)模式的任務(wù);

5、構(gòu)建包含12層關(guān)系感知transformer架構(gòu)的mlnat模型,將語(yǔ)句與模式中的列名按特定格式拼接后輸入,設(shè)置掩碼語(yǔ)言模型、列預(yù)測(cè)和sql生成三個(gè)學(xué)習(xí)任務(wù),并進(jìn)行預(yù)訓(xùn)練;

6、在spider數(shù)據(jù)集上對(duì)模型進(jìn)行實(shí)驗(yàn)評(píng)估,以精確集合匹配率為評(píng)估指標(biāo),并以rat-sql模型作為基線模型。

7、優(yōu)選地,所述利用大語(yǔ)言模型將sql語(yǔ)句及表格轉(zhuǎn)換為自然語(yǔ)言文本,具體為利用大語(yǔ)言模型ernie4.0或ernie3.5,對(duì)于sql轉(zhuǎn)語(yǔ)句,輸入原始sql語(yǔ)句及預(yù)設(shè)提示詞模板,對(duì)于表格轉(zhuǎn)語(yǔ)句,輸入表的列名、列值及對(duì)應(yīng)關(guān)系。

8、優(yōu)選地,所述提取列與表作為正樣本和負(fù)樣本,是從每條sql中提取列與表作為正樣本,同時(shí)從其他sql中抽取不相關(guān)的列與表作為負(fù)樣本,形成三元組。

9、優(yōu)選地,所述將獲取的實(shí)驗(yàn)數(shù)據(jù)格式轉(zhuǎn)換為與spider數(shù)據(jù)集一致,是通過(guò)調(diào)用大語(yǔ)言模型的文生文接口,創(chuàng)建具有特定內(nèi)容的提示詞模板,使用少樣本框架,并設(shè)置推理超參數(shù),其中推理超參數(shù)包括temperature=0.8和top_p=0.1。

10、優(yōu)選地,所述將語(yǔ)句與模式中的列名按特定格式拼接后輸入,是將語(yǔ)句l與模式s里的列名column按x={<t>l<co1>c1<co1>c2<co1></t>}的格式拼接后輸入。

11、優(yōu)選地,所述掩碼語(yǔ)言模型任務(wù)是將文本中15%的token用<mask>替換,讓模型預(yù)測(cè)被替換位置原本的token。

12、優(yōu)選地,所述列預(yù)測(cè)任務(wù),是對(duì)列名對(duì)應(yīng)的所有token進(jìn)行average?pooling操作獲取表示向量,將該表示向量輸入兩層mlp進(jìn)行二分類判斷列名是否被使用,且使用二元交叉熵函數(shù)作為損失函數(shù)。

13、優(yōu)選地,所述sql生成任務(wù)中,解碼器借助存有列名和sql語(yǔ)句關(guān)鍵字的數(shù)據(jù)字典生成目標(biāo)sql?token,其中sql關(guān)鍵字嵌入隨機(jī)初始化并在預(yù)訓(xùn)練階段訓(xùn)練,列表示通過(guò)對(duì)列的子token表示進(jìn)行平均獲得,在每個(gè)解碼步驟中,解碼器產(chǎn)生隱藏向量并進(jìn)行點(diǎn)積運(yùn)算生成目標(biāo)詞匯在詞匯數(shù)據(jù)集上的概率分布。

14、與現(xiàn)有技術(shù)相比,本發(fā)明具備以下有益效果:

15、1、本發(fā)明中,采用聯(lián)合多任務(wù)學(xué)習(xí)框架,通過(guò)掩碼語(yǔ)言模型、列預(yù)測(cè)和最終sql生成這三個(gè)學(xué)習(xí)任務(wù)的協(xié)同作用,使得模型能夠更充分地學(xué)習(xí)語(yǔ)句與表結(jié)構(gòu)之間的語(yǔ)義關(guān)聯(lián),提升了表格語(yǔ)義解析的準(zhǔn)確性,相比現(xiàn)有單一任務(wù)學(xué)習(xí)的方法能更有效地生成高質(zhì)量的sql查詢語(yǔ)句。

16、2、本發(fā)明中,通過(guò)提出的基于大語(yǔ)言模型ernie4.0/3.5生成訓(xùn)練數(shù)據(jù)的方法,解決了現(xiàn)有部分預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量不佳的問題,豐富了訓(xùn)練數(shù)據(jù)的多樣性,為訓(xùn)練出泛化能力強(qiáng)的模型奠定了基礎(chǔ),有助于模型在不同數(shù)據(jù)庫(kù)場(chǎng)景和多樣化自然語(yǔ)言查詢下都能準(zhǔn)確進(jìn)行表格語(yǔ)義解析。

17、3、本發(fā)明中,通過(guò)選用bart初始化模型以及設(shè)計(jì)基于12層關(guān)系感知transformer的編碼器語(yǔ)義解析器,結(jié)合合理的預(yù)訓(xùn)練和微調(diào)策略,進(jìn)一步提高了模型的整體性能,增強(qiáng)了其對(duì)復(fù)雜表格結(jié)構(gòu)和復(fù)雜查詢需求的處理能力,在面對(duì)實(shí)際應(yīng)用中的多表連接、聚合操作等復(fù)雜情況時(shí)展現(xiàn)出良好的適應(yīng)性和魯棒性。



技術(shù)特征:

1.一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法,其特征在于,所述利用大語(yǔ)言模型將sql語(yǔ)句及表格轉(zhuǎn)換為自然語(yǔ)言文本,具體為利用大語(yǔ)言模型ernie4.0或ernie3.5,對(duì)于sql轉(zhuǎn)語(yǔ)句,輸入原始sql語(yǔ)句及預(yù)設(shè)提示詞模板,對(duì)于表格轉(zhuǎn)語(yǔ)句,輸入表的列名、列值及對(duì)應(yīng)關(guān)系。

3.根據(jù)權(quán)利要求2所述的一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法,其特征在于,所述提取列與表作為正樣本和負(fù)樣本,是從每條sql中提取列與表作為正樣本,同時(shí)從其他sql中抽取不相關(guān)的列與表作為負(fù)樣本,形成三元組。

4.根據(jù)權(quán)利要求3所述的一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法,其特征在于,所述將獲取的實(shí)驗(yàn)數(shù)據(jù)格式轉(zhuǎn)換為與spider數(shù)據(jù)集一致,是通過(guò)調(diào)用大語(yǔ)言模型的文生文接口,創(chuàng)建具有特定內(nèi)容的提示詞模板,使用少樣本框架,并設(shè)置推理超參數(shù),其中推理超參數(shù)包括temperature=0.8和top_p=0.1。

5.根據(jù)權(quán)利要求4所述的一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法,其特征在于,所述將語(yǔ)句與模式中的列名按特定格式拼接后輸入,是將語(yǔ)句l與模式s里的列名column按x={<t>l<co1>c1<co1>c2<co1></t>}的格式拼接后輸入。

6.根據(jù)權(quán)利要求5所述的一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法,其特征在于,所述掩碼語(yǔ)言模型任務(wù)是將文本中15%的token用<mask>替換,讓模型預(yù)測(cè)被替換位置原本的token。

7.根據(jù)權(quán)利要求6所述的一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法,其特征在于,所述列預(yù)測(cè)任務(wù),是對(duì)列名對(duì)應(yīng)的所有token進(jìn)行average?pooling操作獲取表示向量,將該表示向量輸入兩層mlp進(jìn)行二分類判斷列名是否被使用,且使用二元交叉熵函數(shù)作為損失函數(shù)。

8.根據(jù)權(quán)利要求7所述的一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法,其特征在于,所述sql生成任務(wù)中,解碼器借助存有列名和sql語(yǔ)句關(guān)鍵字的數(shù)據(jù)字典生成目標(biāo)sqltoken,其中sql關(guān)鍵字嵌入隨機(jī)初始化并在預(yù)訓(xùn)練階段訓(xùn)練,列表示通過(guò)對(duì)列的子token表示進(jìn)行平均獲得,在每個(gè)解碼步驟中,解碼器產(chǎn)生隱藏向量并進(jìn)行點(diǎn)積運(yùn)算生成目標(biāo)詞匯在詞匯數(shù)據(jù)集上的概率分布。


技術(shù)總結(jié)
本發(fā)明公開了一種基于預(yù)訓(xùn)練模型的聯(lián)合多任務(wù)表格語(yǔ)義解析方法,涉及自然語(yǔ)言處理與數(shù)據(jù)庫(kù)技術(shù)領(lǐng)域。該方法從指定網(wǎng)站爬取SQL語(yǔ)句,利用大語(yǔ)言模型將SQL及表格轉(zhuǎn)為自然語(yǔ)言文本,提取列與表形成正、負(fù)樣本,將實(shí)驗(yàn)數(shù)據(jù)轉(zhuǎn)為Spider數(shù)據(jù)集格式,通過(guò)提示詞模板和少樣本框架完成自然語(yǔ)言問題及數(shù)據(jù)庫(kù)模式任務(wù);接著構(gòu)建12層關(guān)系感知Transformer架構(gòu)的MLNaT模型,輸入按特定格式拼接的語(yǔ)句與列名,設(shè)置掩碼語(yǔ)言、列預(yù)測(cè)和SQL生成三項(xiàng)任務(wù),并進(jìn)行預(yù)訓(xùn)練;最后在Spider數(shù)據(jù)集上以精確集合匹配率評(píng)估,以RAT?SQL為基線模型。驗(yàn)證了MLNaT模型在列預(yù)測(cè)和SQL生成方面均優(yōu)于基準(zhǔn)模型。

技術(shù)研發(fā)人員:朱雪雯,潘岳,曾駿
受保護(hù)的技術(shù)使用者:江蘇科技大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1