1.一種基于周期延拓的大模型長文本外推方法,其特征在于,適用于基于rope位置編碼的transformer架構模型;包括:
2.根據權利要求1所述的一種基于周期延拓的大模型長文本外推方法,其特征在于,對transformer架構模型進行微調訓練;包括:
3.根據權利要求1所述的一種基于周期延拓的大模型長文本外推方法,其特征在于,通過訓練后的transformer架構模型進行推理;包括:
4.根據權利要求1所述的一種基于周期延拓的大模型長文本外推方法,其特征在于,通過對高維子空間內周期不完整的位置編碼分布進行周期性的延拓;是指:通過extra-pe的公式,對rope的位置索引序列和旋轉頻率序列進行改造更新,完成位置編碼的適應性改造過程;
5.根據權利要求1所述的一種基于周期延拓的大模型長文本外推方法,其特征在于,ransformer架構模型包括llama、chatglm、baichuan、qwen。
6.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現權利要求1-5任一所述的基于周期延拓的大模型長文本外推方法的步驟。
7.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現權利要求1-5任一所述的基于周期延拓的大模型長文本外推方法的步驟。
8.一種基于周期延拓的大模型長文本外推系統(tǒng),其特征在于,包括: