本發(fā)明涉及大語(yǔ)言模型安全領(lǐng)域,具體說(shuō)的是一種新型中文語(yǔ)義混淆越獄攻擊方法、裝置、介質(zhì)及設(shè)備。
背景技術(shù):
1、諸如chatgpt等大語(yǔ)言模型面世之后,一種在社交平臺(tái)上迅速傳播的攻擊方式——越獄攻擊,引起了廣泛關(guān)注。該攻擊手段利用巧妙構(gòu)造的輸入指令,繞過(guò)大型語(yǔ)言模型(llms)的安全防護(hù)措施,誘使其產(chǎn)生有害信息,這凸顯了及時(shí)發(fā)現(xiàn)并有效應(yīng)對(duì)各類越獄行為的必要性和緊迫性。故而,對(duì)llms遭受的越獄攻擊進(jìn)行深入探究,對(duì)于挖掘潛在的安全弱點(diǎn)、加強(qiáng)模型防護(hù)能力,以及推動(dòng)人工智能領(lǐng)域的穩(wěn)健發(fā)展而言,具有不可忽視的重要意義,是當(dāng)前人工智能安全研究的關(guān)鍵議題之一。
2、越獄攻擊可被劃分為白盒與黑盒兩大類。白盒攻擊因其較低的可讀性和較高的算力需求,往往伴隨著較大的資源消耗,主要將開(kāi)源模型如llama、vicuna、claude等作為攻擊對(duì)象,這類攻擊在普通配置的計(jì)算機(jī)上難以實(shí)現(xiàn)。相對(duì)而言,黑盒攻擊對(duì)算力資源的需求較低,其目標(biāo)則包括gpt-4、gpt-3.5、llama等閉源或開(kāi)源的大型模型。當(dāng)前,黑盒越獄攻擊主要分為定制化提示模板和自動(dòng)化提示模板兩種形式。這兩種越獄攻擊模式不僅是llms面臨的重要挑戰(zhàn),同時(shí)也成為推動(dòng)llms安全領(lǐng)域知識(shí)增長(zhǎng)與技術(shù)革新的關(guān)鍵因素。
3、隨著chatglm、spark、ernie、qwen、baichuan等國(guó)產(chǎn)大模型的快速發(fā)展與廣泛部署,它們?cè)谥形男畔⑻幚眍I(lǐng)域的優(yōu)勢(shì)愈發(fā)顯著,成為推動(dòng)人工智能應(yīng)用創(chuàng)新的重要力量。然而,值得注意的是,當(dāng)前關(guān)于大模型越獄攻擊的研究大多集中在英文語(yǔ)言環(huán)境,對(duì)于中文這一國(guó)產(chǎn)大模型核心語(yǔ)言環(huán)境下的潛在安全漏洞探索尚不充分。根據(jù)已有研究,相同的越獄手段在不同語(yǔ)言環(huán)境下會(huì)產(chǎn)生不同的效果。鑒于中文的獨(dú)特性以及其在國(guó)產(chǎn)大模型中的核心地位,對(duì)中文語(yǔ)境下llms的越獄風(fēng)險(xiǎn)與潛在漏洞進(jìn)行深入評(píng)估顯得尤為重要。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種新型中文語(yǔ)義混淆越獄攻擊方法、裝置、介質(zhì)及設(shè)備,實(shí)現(xiàn)針對(duì)國(guó)產(chǎn)大模型的自動(dòng)化黑盒越獄攻擊,能夠有效地評(píng)估和測(cè)試中文語(yǔ)境下llms的抵抗能力,助于研究和開(kāi)發(fā)更精準(zhǔn)的防御措施。
2、為實(shí)現(xiàn)上述技術(shù)目的,所采用的技術(shù)方案是:一種新型中文語(yǔ)義混淆越獄攻擊方法,所述方法包括:
3、步驟一、獲取原始有害提示;
4、步驟二、識(shí)別原始有害提示中的所有敏感有害關(guān)鍵詞;
5、步驟三、計(jì)算敏感有害關(guān)鍵詞的同音異形詞的概率并按照概率排序,選擇與敏感有害關(guān)鍵詞概率距離最大的同音異形詞作為替代詞;
6、步驟四、構(gòu)造師生場(chǎng)景,目標(biāo)大模型作為學(xué)生回答原始有害提示;在師生場(chǎng)景中融合前綴注入和拒絕抑制;從cvalues數(shù)據(jù)集中提取原始有害提示的風(fēng)險(xiǎn)響應(yīng),將提取的風(fēng)險(xiǎn)響應(yīng)作為師生場(chǎng)景中的舉例內(nèi)容,即在師生場(chǎng)景中注入單樣本;
7、步驟五、將原始有害提示和單樣本中所有的敏感關(guān)鍵詞替換為對(duì)應(yīng)的同音異形詞;
8、步驟六、將融合前綴注入和拒絕抑制的師生場(chǎng)景、替換完成的原始有害提示、替換完成的單樣本作為目標(biāo)大模型的輸入。
9、進(jìn)一步,利用中文敏感關(guān)鍵詞匯表和dfa算法識(shí)別原始有害提示中的所有敏感有害關(guān)鍵詞。
10、一種新型中文語(yǔ)義混淆越獄攻擊裝置,所述的裝置包括:
11、初始模塊,獲取原始有害提示;
12、識(shí)別模塊,根據(jù)初始模塊得到的原始有害提示,識(shí)別原始有害提示中的所有敏感有害關(guān)鍵詞,計(jì)算敏感有害關(guān)鍵詞的同音異形詞的概率并按照概率排序,選擇與敏感有害關(guān)鍵詞概率距離最大的同音異形詞作為替代詞;
13、場(chǎng)景構(gòu)建模塊,構(gòu)造師生場(chǎng)景,目標(biāo)大模型作為學(xué)生回答原始有害提示;在師生場(chǎng)景中融合前綴注入和拒絕抑制;從cvalues數(shù)據(jù)集中提取原始有害提示的風(fēng)險(xiǎn)響應(yīng),將提取的風(fēng)險(xiǎn)響應(yīng)作為師生場(chǎng)景中的舉例內(nèi)容,即在師生場(chǎng)景中注入單樣本;
14、替換模塊,將原始有害提示和單樣本中所有的敏感關(guān)鍵詞替換為對(duì)應(yīng)的同音異形詞;
15、輸入模塊,將融合前綴注入和拒絕抑制的師生場(chǎng)景、替換完成的原始有害提示、替換完成的單樣本作為目標(biāo)大模型的輸入。
16、一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述的計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)多條指令,所述指令適用于處理器加載并執(zhí)行新型中文語(yǔ)義混淆越獄攻擊方法步驟。
17、一種電子設(shè)備,包括處理器和存儲(chǔ)器,所述的處理器與所述存儲(chǔ)器相連,所述存儲(chǔ)器用于存儲(chǔ)可執(zhí)行程序代碼,所述處理器通過(guò)讀取所述存儲(chǔ)器中存儲(chǔ)的可執(zhí)行程序代碼來(lái)運(yùn)行與所述可執(zhí)行程序代碼對(duì)應(yīng)的程序,以用于執(zhí)行新型中文語(yǔ)義混淆越獄攻擊方法步驟。
18、本發(fā)明有益效果是:基于隱晦表達(dá)方式進(jìn)行越獄攻擊的,采用敏感關(guān)鍵詞匯的諧音詞作為隱晦表達(dá),以規(guī)避中文大模型對(duì)敏感有害關(guān)鍵詞的識(shí)別,并基于拒絕抑制、前綴注入、場(chǎng)景嵌套和小樣本越獄等傳統(tǒng)越獄模式,設(shè)計(jì)實(shí)現(xiàn)自動(dòng)化越獄提示模板,通過(guò)實(shí)驗(yàn)證明,與先進(jìn)的黑盒越獄方法相比,本發(fā)明的越獄攻擊模式具有更高的攻擊有效性和攻擊可讀性,更適合中文語(yǔ)言環(huán)境,這表明了國(guó)產(chǎn)大模型在中文語(yǔ)義混淆上的越獄漏洞。
1.一種新型中文語(yǔ)義混淆越獄攻擊方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的一種新型中文語(yǔ)義混淆越獄攻擊方法,其特征在于:利用中文敏感關(guān)鍵詞匯表和dfa算法識(shí)別原始有害提示中的所有敏感有害關(guān)鍵詞。
3.一種新型中文語(yǔ)義混淆越獄攻擊裝置,其特征在于,所述的裝置包括:
4.一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其特征在于:所述的計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)多條指令,所述指令適用于處理器加載并執(zhí)行如權(quán)利要求1-2任意一項(xiàng)方法步驟。
5.一種電子設(shè)備,其特征在于:包括處理器和存儲(chǔ)器,所述的處理器與所述存儲(chǔ)器相連,所述存儲(chǔ)器用于存儲(chǔ)可執(zhí)行程序代碼,所述處理器通過(guò)讀取所述存儲(chǔ)器中存儲(chǔ)的可執(zhí)行程序代碼來(lái)運(yùn)行與所述可執(zhí)行程序代碼對(duì)應(yīng)的程序,以用于執(zhí)行如權(quán)利要求1-2任意一項(xiàng)的方法步驟。