本發(fā)明涉及自然語言處理,尤其涉及一種大語言模型長文本外推方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著深度學習、強化學習等技術(shù)的階段性突破以及中文互聯(lián)網(wǎng)高質(zhì)量文本的累積,自然語言處理領(lǐng)域得到快速發(fā)展,基于生成式解碼的大語言模型在各類自然語言處理任務上取得了先進成績。深度學習通常依賴大量的標簽數(shù)據(jù),但最近幾年隨著各種自監(jiān)督預訓練模型、半監(jiān)督以及無監(jiān)督算法的提出,使得大語言模型能夠利用大量的未標注語料進行學習,這大幅降低了大語言模型對下游各類任務的標簽語料的需求數(shù)量,降低了將其遷移到下游業(yè)務領(lǐng)域的技術(shù)與資源門檻。
2、現(xiàn)階段大語言模型,隨著位置編碼技術(shù)的不斷完善以及訓練技術(shù)的日漸成熟,使得大語言模型的訓練及應用變成主要受計算資源限制的領(lǐng)域。大語言模型在處理較短文本時,由于模型架構(gòu)的優(yōu)越性,使得大語言模型能取得優(yōu)異效果,但是當計算資源有限時,受限于注意力機制算法復雜度,處理長文本通常需要占用大量的計算資源,并且會隨著文本長度的增加導致資源需要的急劇增加。
3、現(xiàn)有擴展大語言模型長文本外推能力的方案主要包括兩大類:全局注意力機制和滑動窗口注意力機制。全局注意力機制通過諸如線性插值等方法增強大語言模型處理未在訓練階段中見過的文本長度的能力,進而在使用全局注意力機制擴大模型上下文窗口時模型的困惑度不會明顯增大;滑動窗口機制則通過多層感受野機制使得在不增加計算及顯存資源的情況下擴展模型感受野的能力。
4、然而,使用全局注意力機制實現(xiàn)外推的大語言模型,推理成本隨長度增加而急劇增加。而使用滑動窗口注意力機制實現(xiàn)外推的模型,外推文本長度有限。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種大語言模型長文本外推方法、裝置、電子設(shè)備及存儲介質(zhì),用以解決相關(guān)技術(shù)中存在的缺陷。
2、本發(fā)明提供一種大語言模型長文本外推方法,包括:
3、獲取預設(shè)長度的待處理文本;
4、若所述預設(shè)長度大于初始大語言模型的訓練文本的序列長度,則基于所述預設(shè)長度以及所述初始大語言模型的滑動窗口注意力機制的初始窗口尺寸,對所述滑動窗口注意力機制的初始位置編碼進行擴展,并對所述初始窗口尺寸進行擴展,得到目標大語言模型;
5、基于所述目標大語言模型,對所述待處理文本進行處理。
6、根據(jù)本發(fā)明提供的一種大語言模型長文本外推方法,所述滑動窗口注意力機制包括多個注意力頭;
7、所述對所述初始窗口尺寸進行擴展,包括:
8、確定測試集,所述測試集包括多個待解碼文本對應的解碼結(jié)果;
9、基于所述解碼結(jié)果,確定所述多個注意力頭對所述待解碼文本中各字的成功檢索次數(shù),基于所述成功檢索次數(shù),從所述多個注意力頭中選取檢索頭,并確定所述多個注意力頭中除所述檢索頭之外的局部頭;
10、將所述檢索頭的初始窗口尺寸擴展為所述預設(shè)長度,并將所述局部頭的初始窗口尺寸保持不變。
11、根據(jù)本發(fā)明提供的一種大語言模型長文本外推方法,所述檢索頭和所述局部頭對應的緩存信息分別存入不同的緩存空間,且所述檢索頭和所述局部頭分別進行點乘注意力計算。
12、根據(jù)本發(fā)明提供的一種大語言模型長文本外推方法,所述基于所述成功檢索次數(shù),從所述多個注意力頭中選取檢索頭,包括:
13、對于任一注意力頭,基于所述任一注意力頭的成功檢索次數(shù),以及所述測試集中所述解碼結(jié)果的序列長度和數(shù)量,計算所述任一注意力頭的檢索得分;
14、基于所述任一注意力頭的檢索得分,判斷所述任一注意力頭是否為所述檢索頭。
15、根據(jù)本發(fā)明提供的一種大語言模型長文本外推方法,所述基于所述預設(shè)長度以及所述初始大語言模型的滑動窗口注意力機制的初始窗口尺寸,對所述滑動窗口注意力機制的初始位置編碼進行擴展,包括:
16、確定所述初始位置編碼中各位置的初始編碼參數(shù);
17、基于所述預設(shè)長度與所述初始窗口尺寸的比值,以及所述初始編碼參數(shù),計算目標編碼參數(shù);
18、基于所述目標編碼參數(shù),確定擴展后的位置編碼。
19、根據(jù)本發(fā)明提供的一種大語言模型長文本外推方法,所述對所述初始窗口尺寸進行擴展,包括:
20、對所述初始大語言模型的解碼過程中的預填充階段以及解碼階段的初始窗口尺寸分別進行擴展。
21、根據(jù)本發(fā)明提供的一種大語言模型長文本外推方法,所述基于所述目標大語言模型,對所述待處理文本進行處理,包括:
22、基于所述目標大語言模型,按擴展后的位置編碼,以固定尺寸對所述待處理文本分段生成目標位置編碼;
23、基于所述目標位置編碼,對所述待處理文本進行處理。
24、本發(fā)明還提供一種大語言模型長文本外推裝置,包括:
25、文本獲取模塊,用于獲取預設(shè)長度的待處理文本;
26、尺寸擴展模塊,用于若所述預設(shè)長度大于初始大語言模型的訓練文本的序列長度,則基于所述預設(shè)長度以及所述初始大語言模型的滑動窗口注意力機制的初始窗口尺寸,對所述滑動窗口注意力機制的初始位置編碼進行擴展,并對所述初始窗口尺寸進行擴展,得到目標大語言模型;
27、處理模塊,用于基于所述目標大語言模型,對所述待處理文本進行處理。
28、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述的大語言模型長文本外推方法。
29、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述的大語言模型長文本外推方法。
30、本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述的大語言模型長文本外推方法。
31、本發(fā)明提供的大語言模型長文本外推方法、裝置、電子設(shè)備及存儲介質(zhì),首先獲取預設(shè)長度的待處理文本;然后若預設(shè)長度大于初始大語言模型的訓練文本的序列長度,則基于預設(shè)長度以及初始大語言模型的滑動窗口注意力機制的初始窗口尺寸,對滑動窗口注意力機制的初始位置編碼進行擴展,并對初始窗口尺寸進行擴展,得到目標大語言模型;最后基于目標大語言模型,對待處理文本進行處理。該方法通過對滑動窗口注意力機制的初始窗口尺寸和初始位置編碼進行同步擴展,使得到的目標大語言模型具備處理更長文本的能力。進而,通過目標大語言模型對待處理文本進行處理,可以保證處理效果,降低推理成本,且處理效果不受待處理文本的預設(shè)長度的限制。
1.一種大語言模型長文本外推方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的大語言模型長文本外推方法,其特征在于,所述滑動窗口注意力機制包括多個注意力頭;
3.根據(jù)權(quán)利要求2所述的大語言模型長文本外推方法,其特征在于,所述檢索頭和所述局部頭對應的緩存信息分別存入不同的緩存空間,且所述檢索頭和所述局部頭分別進行點乘注意力計算。
4.根據(jù)權(quán)利要求2所述的大語言模型長文本外推方法,其特征在于,所述基于所述成功檢索次數(shù),從所述多個注意力頭中選取檢索頭,包括:
5.根據(jù)權(quán)利要求1-4中任一項所述的大語言模型長文本外推方法,其特征在于,所述基于所述預設(shè)長度以及所述初始大語言模型的滑動窗口注意力機制的初始窗口尺寸,對所述滑動窗口注意力機制的初始位置編碼進行擴展,包括:
6.根據(jù)權(quán)利要求1-4中任一項所述的大語言模型長文本外推方法,其特征在于,所述對所述初始窗口尺寸進行擴展,包括:
7.根據(jù)權(quán)利要求1-4中任一項所述的大語言模型長文本外推方法,其特征在于,所述基于所述目標大語言模型,對所述待處理文本進行處理,包括:
8.一種大語言模型長文本外推裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1-7中任一項所述的大語言模型長文本外推方法。
10.一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述的大語言模型長文本外推方法。