本發(fā)明涉及智能網(wǎng)絡(luò)運(yùn)維,具體為基于大語言模型的故障檢測智能體方案。
背景技術(shù):
1、當(dāng)前,大型網(wǎng)絡(luò)集群傳統(tǒng)運(yùn)維主要依賴人工監(jiān)測和處理,這一模式存在巨大的問題挑戰(zhàn):
2、(1)高人力成本:大型網(wǎng)絡(luò)集群包含海量節(jié)點(diǎn),業(yè)務(wù)場景復(fù)雜,需要大量運(yùn)維人員(on-call?engineers)日夜監(jiān)控和處理故障。
3、(2)效率低下:大型網(wǎng)絡(luò)集群故障從發(fā)現(xiàn)到定位再到解決可能需要數(shù)小時(shí)甚至數(shù)天,導(dǎo)致業(yè)務(wù)效率低下,耽誤業(yè)務(wù)進(jìn)展,造成大量經(jīng)濟(jì)損失。
4、(3)高度依賴經(jīng)驗(yàn):運(yùn)維的成效常取決于運(yùn)維人員的經(jīng)驗(yàn)和知識(shí)儲(chǔ)備,這些經(jīng)驗(yàn)性知識(shí)高度專業(yè)化,難以被泛化學(xué)習(xí)使用。
5、即使傳統(tǒng)ai技術(shù)已經(jīng)在一定程度上提升了自動(dòng)化程度,但其仍高度依賴人工標(biāo)注的數(shù)據(jù),且傳統(tǒng)模型在面對(duì)高度領(lǐng)域化的知識(shí)時(shí)展現(xiàn)出較差的泛化能力、缺乏綜合性判斷能力。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供基于大語言模型的故障檢測智能體方案,以解決上述背景技術(shù)中提出的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:基于大語言模型的故障檢測智能體方案,包括如下步驟:
3、步驟s1:接收線索與知識(shí)檢索:模型接受人工輸入的故障描述或?qū)崟r(shí)告警數(shù)據(jù)作為原始告警信息,根據(jù)告警信息對(duì)構(gòu)建完成的2000條故障知識(shí)片段進(jìn)行rag,從向量庫中檢索相關(guān)的歷史數(shù)據(jù)和處理流程,檢索到的知識(shí)片段、原始告警信息、一同組成推理輸入,供智能體的大模型進(jìn)行思考決策;
4、步驟s2:思考決策:根據(jù)告警數(shù)據(jù)、檢索到的故障知識(shí)庫、已經(jīng)完成的故障檢測軌跡思考下一步應(yīng)調(diào)用的工具或者輸出根因結(jié)果;
5、步驟s3:執(zhí)行操作:智能體調(diào)用自動(dòng)化工具api,將工具分為低風(fēng)險(xiǎn)和高風(fēng)險(xiǎn),當(dāng)智能體選擇低風(fēng)險(xiǎn)工具時(shí),自動(dòng)與環(huán)境交互獲得observation;選擇高風(fēng)險(xiǎn)工具時(shí),智能體對(duì)運(yùn)維人員輸出高風(fēng)險(xiǎn)提示,待運(yùn)維人員同意后再調(diào)用工具;
6、步驟s4:綜合分析:基于react格式完成智能體故障檢測推理框架,進(jìn)行故障分析。
7、優(yōu)選的,所述步驟s4綜合分析方式有兩種,包括如下:
8、1)決策相似度評(píng)估:react數(shù)據(jù)集按照6:1:1的比例將劃分為訓(xùn)練集、驗(yàn)證集、測試集,在測試集上,固定提示語的開頭部分和操作的觀察部分,讓模型輸出思考和動(dòng)作,對(duì)比模型輸出與參考輸出,計(jì)算語義相似度;
9、2)模擬環(huán)境測試:基于mininet+frr搭建的虛擬網(wǎng)絡(luò)環(huán)境,復(fù)現(xiàn)典型故障場景,實(shí)現(xiàn)運(yùn)維工具,端到端地評(píng)估模型能否定位正確的根因,而忽略定位的中間過程。
10、優(yōu)選的,所述步驟s1中rag工作流程:
11、s11、預(yù)處理:首先,對(duì)大規(guī)模的語料庫進(jìn)行預(yù)處理,包括分詞、去除停用詞、構(gòu)建詞匯表步驟;
12、s12、檢索:在生成過程中,rag技術(shù)會(huì)根據(jù)當(dāng)前的上下文信息,在語料庫中檢索相關(guān)的文本片段;
13、s13、生成:在得到檢索結(jié)果后,rag技術(shù)會(huì)利用生成模型來生成新的文本,生成過程會(huì)綜合考慮當(dāng)前的上下文信息、檢索結(jié)果以及生成模型自身的知識(shí)庫,從而生成更加準(zhǔn)確、多樣的文本;
14、s14、后處理:最后,對(duì)生成的文本進(jìn)行后處理,包括去除重復(fù)、修正語法錯(cuò)誤步驟,提高生成結(jié)果的質(zhì)量。
15、優(yōu)選的,所述步驟s1中模型對(duì)于pdf、word多種格式的網(wǎng)絡(luò)故障文檔集進(jìn)行格式處理,提取有效文字信息,并進(jìn)一步基于gpt-4提示語設(shè)計(jì)和規(guī)則檢查,將其轉(zhuǎn)化成可直接用于知識(shí)檢索數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集,數(shù)據(jù)集進(jìn)一步經(jīng)過長度檢查、語義相似度檢查、格式檢查,確保檢索效果和訓(xùn)練效果。
16、優(yōu)選的,所述步驟s3包括故障系統(tǒng)環(huán)境交互模塊,故障系統(tǒng)環(huán)境交互模塊用于將工具集中的每項(xiàng)工具api化,通過提示語告知模型這些api的名稱、定義、調(diào)用方式、風(fēng)險(xiǎn)等級(jí),確保大語言模型能理解工具,根據(jù)推理需求調(diào)用合適的工具。
17、優(yōu)選的,所述步驟s4為了激發(fā)模型在網(wǎng)絡(luò)故障運(yùn)維專業(yè)領(lǐng)域的推理能力,基于前述react訓(xùn)練數(shù)據(jù)集構(gòu)造定制化模型訓(xùn)練方法,并在設(shè)計(jì)語義相似度、故障定位端到端評(píng)估指標(biāo)用于智能體推理能力評(píng)估。
18、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
19、本發(fā)明基于大模型的高度智能和推理能力,設(shè)計(jì)了一些列數(shù)據(jù)自動(dòng)化處理模塊用于生成運(yùn)維專家知識(shí)庫和react格式訓(xùn)練集、使用適配react數(shù)據(jù)集的訓(xùn)練方法提升模型智能;進(jìn)一步我們開發(fā)了一系列故障檢測工具集,設(shè)計(jì)大模型與知識(shí)庫、故障檢測工具集交互模塊,最終構(gòu)成故障檢測智能體,為故障管理提供了更加智能和高效的解決方案。
20、相比于傳統(tǒng)智能模型,大語言模型的推理能力更加顯著,面對(duì)復(fù)雜問題時(shí)具備多步分析、反思、規(guī)劃的能力,適配于網(wǎng)絡(luò)系統(tǒng)故障根因的分布式檢測流程,具備替代人工運(yùn)維的高度潛能。
21、由于網(wǎng)絡(luò)故障根因檢測屬于專業(yè)領(lǐng)域任務(wù),為了使大語言模型有足夠的知識(shí)背景開展復(fù)雜推理,本發(fā)明設(shè)計(jì)了高質(zhì)量數(shù)據(jù)集自動(dòng)化生成模塊,通過定制化微調(diào)方案訓(xùn)練模型,使之擁有網(wǎng)絡(luò)故障運(yùn)維基本知識(shí);在接受準(zhǔn)確的提示語要求和故障信息輸入后,智能體通過模型按照react框架迭代式地規(guī)劃任務(wù),并通過交互模塊與網(wǎng)絡(luò)環(huán)境實(shí)時(shí)交互、根據(jù)實(shí)際情況進(jìn)行推理,直至定位故障根因,從而自動(dòng)化地完成故障根因檢測工作。
1.基于大語言模型的故障檢測智能體方案,其特征在于:包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于大語言模型的故障檢測智能體方案,其特征在于:所述步驟s4綜合分析方式有兩種,包括如下:
3.根據(jù)權(quán)利要求1所述的基于大語言模型的故障檢測智能體方案,其特征在于:所述步驟s1中rag工作流程:
4.根據(jù)權(quán)利要求1所述的基于大語言模型的故障檢測智能體方案,其特征在于:所述步驟s1中模型對(duì)于pdf、word多種格式的網(wǎng)絡(luò)故障文檔集進(jìn)行格式處理,提取有效文字信息,并進(jìn)一步基于gpt-4提示語設(shè)計(jì)和規(guī)則檢查,將其轉(zhuǎn)化成可直接用于知識(shí)檢索數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集,數(shù)據(jù)集進(jìn)一步經(jīng)過長度檢查、語義相似度檢查、格式檢查,確保檢索效果和訓(xùn)練效果。
5.根據(jù)權(quán)利要求1所述的基于大語言模型的故障檢測智能體方案,其特征在于:所述步驟s3包括故障系統(tǒng)環(huán)境交互模塊,故障系統(tǒng)環(huán)境交互模塊用于將工具集中的每項(xiàng)工具api化,通過提示語告知模型這些api的名稱、定義、調(diào)用方式、風(fēng)險(xiǎn)等級(jí),確保大語言模型能理解工具,根據(jù)推理需求調(diào)用合適的工具。
6.根據(jù)權(quán)利要求1所述的基于大語言模型的故障檢測智能體方案,其特征在于:所述步驟s4為了激發(fā)模型在網(wǎng)絡(luò)故障運(yùn)維專業(yè)領(lǐng)域的推理能力,基于前述react訓(xùn)練數(shù)據(jù)集構(gòu)造定制化模型訓(xùn)練方法,并在設(shè)計(jì)語義相似度、故障定位端到端評(píng)估指標(biāo)用于智能體推理能力評(píng)估。