可變內(nèi)存環(huán)境下細(xì)粒度尺寸控制的大型語(yǔ)言模型壓縮方法

文檔序號(hào)：41950903發(fā)布日期：2025-05-16 14:11閱讀：3來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

可變內(nèi)存環(huán)境下細(xì)粒度尺寸控制的大型語(yǔ)言模型壓縮方法

本發(fā)明屬于模型壓縮，具體涉及一種可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法。

背景技術(shù)：

1、大型語(yǔ)言模型(llms)在各類(lèi)基準(zhǔn)測(cè)試中表現(xiàn)出卓越性能，并逐漸在日常生活中得到應(yīng)用，如通用語(yǔ)言助手、搜索引擎和代碼助手。隨著規(guī)模的擴(kuò)大，大型語(yǔ)言模型的部署從性能的提升逐漸轉(zhuǎn)向可用性的提升，例如內(nèi)存占用問(wèn)題成為瓶頸。加載大型模型需要顯著的內(nèi)存資源，這對(duì)低資源設(shè)備的部署構(gòu)成挑戰(zhàn)。

2、大型語(yǔ)言模型的壓縮方法主要包含量化、剪枝、知識(shí)蒸餾、權(quán)重分解四種。其中，量化、剪枝、知識(shí)蒸餾等傳統(tǒng)壓縮方法需要預(yù)設(shè)壓縮比，適配性有限，且壓縮步驟復(fù)雜，而先前的權(quán)重分解方法雖然能減小存儲(chǔ)空間需求，但高壓縮比下會(huì)顯著損害性能，難以適應(yīng)動(dòng)態(tài)內(nèi)存變化。

3、為了讓大型語(yǔ)言模型能夠惠及更多人，將模型部署在本地設(shè)備中逐漸成為一種強(qiáng)烈需求。而在本地設(shè)備上部署大型語(yǔ)言模型需要兼顧內(nèi)存和性能，而現(xiàn)有方法在可變內(nèi)存環(huán)境中難以實(shí)現(xiàn)動(dòng)態(tài)優(yōu)化?，F(xiàn)有的方法由于受到需要預(yù)設(shè)壓縮比的限制，難以適配本地設(shè)備中有限且快速變化的可用內(nèi)存容量，而切換不同壓縮比的壓縮模型會(huì)帶來(lái)很大的內(nèi)存加載時(shí)延及存儲(chǔ)負(fù)擔(dān)。因此，當(dāng)前需要提出一種能夠適應(yīng)可變內(nèi)存環(huán)境的模型壓縮方法，讓高效的模型本地部署成為可能。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明是為解決上述問(wèn)題而進(jìn)行的，目的在于提供一種能夠在可變內(nèi)存環(huán)境中實(shí)現(xiàn)動(dòng)態(tài)優(yōu)化的大型語(yǔ)言模型壓縮方法，本發(fā)明采用了如下技術(shù)方案：

2、本發(fā)明提供了一種可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，該方法具有這樣的技術(shù)特征在于，其包括以下步驟：步驟s1，通過(guò)預(yù)定的校準(zhǔn)數(shù)據(jù)集計(jì)算待壓縮的大型語(yǔ)言模型各個(gè)權(quán)重矩陣對(duì)應(yīng)的激活值，并基于所述激活值得到激活值感知的權(quán)重矩陣；步驟s2，將各個(gè)所述激活值感知的權(quán)重矩陣分解為其符號(hào)矩陣和絕對(duì)值矩陣，并對(duì)所述絕對(duì)值矩陣進(jìn)行迭代分解，基于符號(hào)矩陣和迭代分解結(jié)果得到多個(gè)殘差數(shù)據(jù)塊；步驟s3，對(duì)多個(gè)所述殘差數(shù)據(jù)塊進(jìn)行重要性評(píng)估和排序；步驟s4，根據(jù)當(dāng)前可用內(nèi)存容量的變化以及所述殘差數(shù)據(jù)塊的重要性，動(dòng)態(tài)加載或卸載所述殘差數(shù)據(jù)塊，得到與所述當(dāng)前可用內(nèi)存容量相適應(yīng)的壓縮模型。

3、本發(fā)明提供的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，還可以具有這樣的技術(shù)特征，其中，在步驟s1中，基于所述激活值計(jì)算縮放因子，并用所述縮放因子對(duì)各個(gè)所述權(quán)重矩陣中對(duì)應(yīng)行進(jìn)行縮放，得到所述激活值感知的權(quán)重矩陣。

4、本發(fā)明提供的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，還可以具有這樣的技術(shù)特征，其中，在步驟s1中，基于所述激活值得到激活值矩陣，統(tǒng)計(jì)所述激活值矩陣的l2范數(shù)作為所述縮放因子：

5、s＝[||x1||2，||x2||2，…，|xn||2]

6、用所述縮放因子對(duì)各個(gè)所述權(quán)重矩陣中對(duì)應(yīng)行進(jìn)行縮放，得到所述激活值感知的權(quán)重矩陣：

7、xw＝xdiag(1/s)diag(s)w＝xdiag(1/s)wscaled

8、式中，xn為激活值矩陣各列的值，x為激活值矩陣，w為權(quán)重矩陣，wscaled為激活值感知的權(quán)重矩陣。

9、本發(fā)明提供的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，還可以具有這樣的技術(shù)特征，其中，步驟s2包括以下子步驟：步驟s2-1，將所述激活值感知的權(quán)重矩陣分解為所述符號(hào)矩陣和所述絕對(duì)值矩陣的乘積；步驟s2-2，對(duì)待分解的所述絕對(duì)值矩陣進(jìn)行奇異值分解，并保留所述符號(hào)矩陣和通過(guò)奇異值分解得到的前k個(gè)奇異向量和奇異值，得到由所述符號(hào)矩陣和前k個(gè)所述奇異向量構(gòu)成的所述殘差數(shù)據(jù)塊；步驟s2-3，判斷是否到達(dá)預(yù)定的迭代次數(shù)，在判斷為是時(shí)得到分解出的多個(gè)所述殘差數(shù)據(jù)塊；步驟s2-4，在步驟s2-3中判斷為否時(shí)，基于待分解的所述絕對(duì)值矩陣和所述殘差數(shù)據(jù)塊計(jì)算近似殘差，得到的殘差絕對(duì)值矩陣；步驟s2-5，將所述殘差絕對(duì)值矩陣作為新的待分解的絕對(duì)值矩陣，并返回步驟s2-2，以繼續(xù)對(duì)所述殘差絕對(duì)值矩陣進(jìn)行分解。

10、本發(fā)明提供的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，還可以具有這樣的技術(shù)特征，其中，在步驟s2-1中，對(duì)所述激活值感知的權(quán)重矩陣的分解表示為：

11、wscaled＝wsign☉|w|

12、在步驟s2-2中，所述奇異值分解表示為：

13、

14、經(jīng)過(guò)n次迭代分解后得到的所述殘差數(shù)據(jù)塊表示為：

15、

16、式中，wsign為符號(hào)矩陣，|w|為絕對(duì)值矩陣，a’為左奇異矩陣，b’為右奇異矩陣，為殘差數(shù)據(jù)塊，為殘差數(shù)據(jù)塊的符號(hào)矩陣。

17、本發(fā)明提供的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，還可以具有這樣的技術(shù)特征，其中，所述符號(hào)矩陣僅包含1和-1，將其打包為cpu支持的數(shù)據(jù)類(lèi)型進(jìn)行存儲(chǔ)，其每個(gè)參數(shù)占用1bit內(nèi)存容量。

18、本發(fā)明提供的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，還可以具有這樣的技術(shù)特征，其中，在步驟s3中，使用預(yù)定的校準(zhǔn)數(shù)據(jù)集計(jì)算加載不同的所述殘差數(shù)據(jù)塊情況下構(gòu)成的不同的所述壓縮模型的困惑度，從而評(píng)估不同的所述殘差數(shù)據(jù)塊的重要性，根據(jù)所述重要性對(duì)多個(gè)所述殘差數(shù)據(jù)塊進(jìn)行全局排序。

19、本發(fā)明提供的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，還可以具有這樣的技術(shù)特征，其中，在步驟s4中，根據(jù)所述當(dāng)前可用內(nèi)存容量以及所述殘差數(shù)據(jù)塊的重要性，選擇重要性排序前m個(gè)所述殘差數(shù)據(jù)塊構(gòu)成所述壓縮模型。

20、本發(fā)明提供的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，還可以具有這樣的技術(shù)特征，其中，在步驟s4中，在所述當(dāng)前可用內(nèi)存容量增加時(shí)，根據(jù)增加量相應(yīng)地再向所述壓縮模型加載重要性排序第m+1個(gè)開(kāi)始的若干個(gè)所述殘差數(shù)據(jù)塊，構(gòu)成新的壓縮模型；在所述當(dāng)前可用內(nèi)存容量減少時(shí)，根據(jù)減少量相應(yīng)地從所述壓縮模型中卸載重要性排序最靠后的若干個(gè)所述殘差數(shù)據(jù)塊，構(gòu)成新的壓縮模型。

21、發(fā)明的作用與效果

22、根據(jù)本發(fā)明提供的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，包括計(jì)算激活值感知的權(quán)重矩陣的步驟、對(duì)其激活值感知的權(quán)重矩陣的絕對(duì)值矩陣進(jìn)行迭代分解的步驟、對(duì)迭代分解出的多個(gè)殘差數(shù)據(jù)塊進(jìn)行重要性評(píng)估和排序的步驟、以及根據(jù)可用內(nèi)容容量的變化以及重要性排序動(dòng)態(tài)加載殘差數(shù)據(jù)塊以構(gòu)成不同壓縮模型的步驟。通過(guò)這樣的方法，能夠使得壓縮模型很好地適應(yīng)可變內(nèi)存環(huán)境，從而能夠在本地設(shè)備中部署模型，并且由于優(yōu)先加載重要性更高的殘差數(shù)據(jù)塊，因此壓縮模型仍具有與原大型語(yǔ)言模型接近的優(yōu)秀性能，即使是在極端壓縮比的情況下也是如此，因此壓縮模型也無(wú)需再經(jīng)過(guò)訓(xùn)練，使得模型在本地設(shè)備中的部署更為方便和高效。

技術(shù)特征：

1.一種可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，其特征在于：

3.根據(jù)權(quán)利要求2所述的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，其特征在于：

4.根據(jù)權(quán)利要求2所述的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，其特征在于：

5.根據(jù)權(quán)利要求4所述的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，其特征在于：

6.根據(jù)權(quán)利要求5所述的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，其特征在于：

7.根據(jù)權(quán)利要求1所述的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，其特征在于：

8.根據(jù)權(quán)利要求7所述的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，其特征在于：

9.根據(jù)權(quán)利要求8所述的可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，其特征在于：

技術(shù)總結(jié)
本發(fā)明提供一種可變內(nèi)存環(huán)境下細(xì)料度尺寸控制的大型語(yǔ)言模型壓縮方法，包括計(jì)算激活值感知的權(quán)重矩陣的步驟、對(duì)其激活值感知的權(quán)重矩陣的絕對(duì)值矩陣進(jìn)行迭代分解的步驟、對(duì)迭代分解出的多個(gè)殘差數(shù)據(jù)塊進(jìn)行重要性評(píng)估和排序的步驟、以及根據(jù)可用內(nèi)容容量的變化以及重要性排序動(dòng)態(tài)加載殘差數(shù)據(jù)塊以構(gòu)成不同壓縮模型的步驟。通過(guò)這樣的方法，能夠使得壓縮模型很好地適應(yīng)可變內(nèi)存環(huán)境，從而能夠在本地設(shè)備中部署模型，并且由于優(yōu)先加載重要性更高的殘差數(shù)據(jù)塊，因此壓縮模型仍具有與原大型語(yǔ)言模型接近的優(yōu)秀性能，即使是在極端壓縮比的情況下也是如此，因此壓縮模型也無(wú)需再經(jīng)過(guò)訓(xùn)練，使得模型在本地設(shè)備中的部署更為方便和高效。

技術(shù)研發(fā)人員：邱錫鵬,王星皓
受保護(hù)的技術(shù)使用者：復(fù)旦大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/15

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邱錫鵬,王星皓
技術(shù)所有人：復(fù)旦大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

可變內(nèi)存環(huán)境下細(xì)粒度尺寸控制的大型語(yǔ)言模型壓縮方法