本發(fā)明屬于智慧建筑運(yùn)維領(lǐng)域,具體涉及基于知識(shí)增強(qiáng)大語言模型的智慧建筑運(yùn)維問詢方法及系統(tǒng)。
背景技術(shù):
1、隨著全球城市化進(jìn)程的加快,智慧建筑逐漸成為城市建設(shè)的重要組成部分,智慧建筑運(yùn)維(operations?andmaintenance(o&m))任務(wù)的重要性日益凸顯,其目的在于降低建筑運(yùn)營成本,提高能源利用效率,增強(qiáng)居住環(huán)境的舒適性。然而,隨著智慧建筑結(jié)構(gòu)的復(fù)雜性和產(chǎn)生的數(shù)據(jù)量的不斷增加,建筑運(yùn)維需要通過有效的信息問詢手段,從海量信息中提取價(jià)值以支持決策,這一過程面臨著諸多挑戰(zhàn)。
2、現(xiàn)有的方法提出將大型語言模型(large?language?model(llm))應(yīng)用于建筑領(lǐng)域以應(yīng)對(duì)智慧建筑帶來的挑戰(zhàn),通過微調(diào)的方式使llm適應(yīng)特定領(lǐng)域的任務(wù),使llm更好地學(xué)習(xí)到與建筑運(yùn)維相關(guān)的專業(yè)術(shù)語以及常見問詢的語境。然而,即使llm在處理建筑領(lǐng)域的文本信息方面展現(xiàn)了強(qiáng)大的能力,但在當(dāng)前的一些工作中,對(duì)于llm深入理解復(fù)雜的運(yùn)維數(shù)據(jù)和建筑結(jié)構(gòu)的關(guān)聯(lián)性方面仍存在顯著的缺陷。首先,采集到的傳感器數(shù)據(jù)往往存儲(chǔ)在結(jié)構(gòu)化的數(shù)據(jù)庫中,需要將用戶需求轉(zhuǎn)換為結(jié)構(gòu)化查詢語言(structured?query?language(sql))語句,為llm檢索相關(guān)運(yùn)維數(shù)據(jù)帶來了一定的阻礙,尤其涉及到復(fù)雜的問詢條件,例如多重條件下的嵌套查詢。其次,llm本身不具備實(shí)際建筑內(nèi)部空間結(jié)構(gòu)與監(jiān)測數(shù)據(jù)的內(nèi)在關(guān)聯(lián)的知識(shí),僅依靠llm難以完全提取和利用數(shù)據(jù)背后的隱式知識(shí)結(jié)構(gòu),難以準(zhǔn)確地完成信息問詢?nèi)蝿?wù),尤其是需要將實(shí)際建筑物的數(shù)據(jù)規(guī)則和空間結(jié)構(gòu)納入數(shù)據(jù)檢索中時(shí),這一過程極大的提高了運(yùn)維任務(wù)的操作門檻。知識(shí)圖譜的發(fā)展為解決這些缺陷提供一種重要的解決方案,它主要專注于分析和處理大量語義高度相關(guān)且可強(qiáng)烈推斷的文本信息,同樣地也能夠有效地描述建筑物各個(gè)部分或組件之間的復(fù)雜關(guān)系,這將使o&m過程中對(duì)結(jié)構(gòu)關(guān)系的理解和處理更加直觀和高效。然而,目前在運(yùn)維場景中,針對(duì)海量數(shù)據(jù)與復(fù)雜空間關(guān)系的知識(shí)圖譜構(gòu)建的相關(guān)工作較為稀缺。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述問題,本發(fā)明公開了基于知識(shí)增強(qiáng)大語言模型的智慧建筑運(yùn)維問詢方法及系統(tǒng),借助于混合建筑運(yùn)維場景的text2sql數(shù)據(jù)集對(duì)llm進(jìn)行微調(diào)來實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)檢索;充分發(fā)揮融合知識(shí)圖譜的優(yōu)勢,最大程度地利用建筑空間結(jié)構(gòu)、設(shè)備與監(jiān)測數(shù)據(jù)、運(yùn)維相關(guān)規(guī)則等豐富的信息資源;并借此根據(jù)用戶問詢生成相應(yīng)的運(yùn)維分析與建議,這更加滿足智慧建筑背景下的運(yùn)維需求,極大地減少了運(yùn)維過程中的人工操作。
2、為達(dá)到上述目的,本發(fā)明的技術(shù)方案如下:
3、一種基于知識(shí)增強(qiáng)大語言模型的智慧建筑運(yùn)維信息問詢方法,包括以下步驟:
4、步驟(1)、針對(duì)真實(shí)智慧建筑中用于運(yùn)維信息問詢的海量傳感器數(shù)據(jù),通過無監(jiān)督異常檢測方法來篩選異常值的數(shù)據(jù)預(yù)處理,以提高其作為問詢回復(fù)依據(jù)的可靠性,預(yù)處理后的數(shù)據(jù)存儲(chǔ)在運(yùn)維數(shù)據(jù)庫中。
5、步驟(2)、構(gòu)建包含運(yùn)維場景的問題-sql對(duì)組成的混合微調(diào)數(shù)據(jù)集對(duì)llm進(jìn)行qlora(quantizedlow-rank?adaptation)訓(xùn)練,qlora是在原有模型參數(shù)的情況下引入附加的低秩適應(yīng)矩陣來擴(kuò)展llm功能的微調(diào)技術(shù),從而得到增強(qiáng)了運(yùn)維問詢場景下將自然語言轉(zhuǎn)換為sql(text-to-sql(text2sql))能力的original?o&m?llm;
6、步驟(3)、依據(jù)實(shí)際建筑的結(jié)構(gòu)信息與運(yùn)維規(guī)則,基于三元組的方式定義實(shí)體與關(guān)系以構(gòu)建運(yùn)維知識(shí)圖譜,根據(jù)運(yùn)維信息問詢經(jīng)典的幾類場景構(gòu)建少量的示例,示例與知識(shí)圖譜共同作為外部知識(shí)庫;
7、步驟(4)、針對(duì)知識(shí)圖譜的搜索,對(duì)運(yùn)維問詢中涉及的實(shí)體定義了建筑層級(jí)信息分類和對(duì)應(yīng)的優(yōu)先級(jí),并設(shè)計(jì)了一個(gè)基于建筑實(shí)體的類優(yōu)先級(jí)的圖譜搜索算法,得到運(yùn)維知識(shí)圖譜中與問詢有關(guān)的類與三元組;針對(duì)示例的搜索,采用文本向量匹配的方法選取相關(guān)度最高的前三個(gè)示例;最后,在設(shè)計(jì)的提示模板下引導(dǎo)llm將問詢相關(guān)的類、三元組和示例轉(zhuǎn)化為連續(xù)文本形式的知識(shí)提示;
8、步驟(5)、通過知識(shí)提示得到增強(qiáng)后的knowledge-enhanced?o&m?llm以完成對(duì)運(yùn)維數(shù)據(jù)庫進(jìn)行檢索,返回的相關(guān)數(shù)據(jù)將與問詢一并作為上下文信息,最后knowledge-enhanced?o&m?llm根據(jù)此上下文信息對(duì)用戶的問詢提供合理的運(yùn)維分析和建議。
9、作為本發(fā)明所述的一種基于知識(shí)增強(qiáng)大語言模型的智慧建筑運(yùn)維信息問詢方法進(jìn)一步優(yōu)化方案,步驟(1)包括以下步驟:
10、(1-1)、針對(duì)真實(shí)智慧建筑中用于運(yùn)維信息問詢的海量傳感器數(shù)據(jù),基于孤立森林算法進(jìn)行無監(jiān)督的異常值檢測;孤立森林算法利用了異常數(shù)據(jù)“很少且不同”的事實(shí),通過有效地構(gòu)建樹結(jié)構(gòu)來隔離每個(gè)實(shí)例,其中異常值往往經(jīng)過少數(shù)輪后即被隔離,而正常值顯然需要較多和較復(fù)雜的切割分割,因此,當(dāng)隨機(jī)森林共同為某些特定點(diǎn)產(chǎn)生較短的路徑長度時(shí),這些點(diǎn)很可能是異常的;具體算法步驟如下:
11、步驟111、在給定n個(gè)實(shí)例的數(shù)據(jù)樣本x={x1,…,xn}上隨機(jī)選擇m個(gè)特征,通過在所選特征的最大值和最小值之間隨機(jī)選擇一個(gè)值來分割數(shù)據(jù)點(diǎn),劃分遞歸地重復(fù),直到所有的數(shù)據(jù)樣本被孤立,以此構(gòu)建隔離樹(isolation?tree(itree))。
12、步驟112、計(jì)算孤立森林路徑長度,由以下公式定義:
13、h(x)=e+c(t.size)
14、其中,h(x)是為單個(gè)數(shù)據(jù)樣本在itree上的路徑長度,e為數(shù)據(jù)樣本x從樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的過程中經(jīng)歷的邊的個(gè)數(shù),t.size表示和樣本x同在一個(gè)葉子結(jié)點(diǎn)樣本的個(gè)數(shù),c(t.size)可以看作一個(gè)修正值,表示t.size個(gè)樣本構(gòu)建一個(gè)二叉樹的平均路徑長度;c(n)的計(jì)算公式如下:
15、
16、其中,h(i)是調(diào)和數(shù),可以通過ln(i)+0.5772156649(歐拉常數(shù))來估計(jì),該修正值的目的是為了使得異常和正常樣本的路徑長度差異更大;
17、步驟113、計(jì)算異常得分,由如下公式定義:
18、
19、其中,w(h(x))是單個(gè)數(shù)據(jù)樣本x在所有itree中達(dá)到的深度的平均值,用c(n)來歸一化h(x)將s映射至(0,1)的范圍內(nèi),當(dāng)數(shù)據(jù)樣本的路徑長度越小,s越接近1,此時(shí)該數(shù)據(jù)樣本是異常值的概率越大;當(dāng)e(h(x))越趨近于某個(gè)樣本所在節(jié)點(diǎn)的平均路徑長度c(n)時(shí),異常分?jǐn)?shù)s趨近于0.5;當(dāng)e(h(x))越趨近于0時(shí),即數(shù)據(jù)樣本的路徑長度越小,在較早的位置結(jié)束了特征分割,異常分?jǐn)?shù)s則越趨近于1,則該點(diǎn)很可能是異常值;反之,如果s遠(yuǎn)小于0.5,則該點(diǎn)很可能是正常值。
20、步驟114、通過設(shè)置閾值k來對(duì)itree上的所有數(shù)據(jù)樣本進(jìn)行合適的異常篩選,將異常得分s≥k數(shù)據(jù)樣本視為異常值進(jìn)行去除。
21、作為本發(fā)明所述的一種基于知識(shí)增強(qiáng)大語言模型的智慧建筑運(yùn)維信息問詢方法進(jìn)一步優(yōu)化方案,步驟(2)包括以下步驟:
22、(2-1)、基于通用text2sql數(shù)據(jù)集混合了運(yùn)維信息問詢-sql對(duì),以此構(gòu)建混合微調(diào)數(shù)據(jù)集其中每個(gè)樣本對(duì)包含一個(gè)問詢x(i)和與其相應(yīng)的sql語句y(i);
23、(2-2)、利用該混合微調(diào)數(shù)據(jù)集進(jìn)行模型訓(xùn)練,訓(xùn)練目標(biāo)是通過最小化以問題為條件的sql響應(yīng)的負(fù)對(duì)數(shù)似然來優(yōu)化模型參數(shù),得到original?o&m?llm;具體地,有如下訓(xùn)練目標(biāo)函數(shù)的定義:
24、
25、其中,為第i個(gè)樣本在時(shí)間步為t的目標(biāo)輸出值,用來與模型的輸出值作對(duì)比,在指導(dǎo)梯度下降過程,使模型的預(yù)測更接近真實(shí)的目標(biāo)輸出。
26、同時(shí),訓(xùn)練的方式基于qlora技術(shù);具體來說,在訓(xùn)練中鎖定基礎(chǔ)模型的所有參數(shù)w,在輸入訓(xùn)練數(shù)據(jù)x后,僅對(duì)新增加的網(wǎng)絡(luò)層進(jìn)行調(diào)整;初始階段,通過高斯分布初始化新增的權(quán)重wa,并將權(quán)重wb設(shè)為零矩陣,這意味著在訓(xùn)練初期,新增的路徑ba不會(huì)對(duì)模型輸出造成任何影響;而在推理階段,則有如下公式來更新原有的語言模型權(quán)重,以此來實(shí)現(xiàn)對(duì)原始權(quán)重的增強(qiáng)與優(yōu)化:
27、h=wx+wawbx=(w+wawb)
28、作為本發(fā)明所述的一種基于知識(shí)增強(qiáng)大語言模型的智慧建筑運(yùn)維信息問詢方法進(jìn)一步優(yōu)化方案,步驟(3)包括以下步驟:
29、(3-1)、依據(jù)實(shí)際建筑的結(jié)構(gòu)信息與運(yùn)維規(guī)則,詳盡描述從基礎(chǔ)樓層信息到各樓層內(nèi)部各類功能空間的劃分,整合空間與水電能源消耗、環(huán)境傳感設(shè)備的關(guān)聯(lián),同時(shí)涵蓋各類傳感器的空間位置分布以及各類監(jiān)測數(shù)據(jù)的標(biāo)準(zhǔn)閾值設(shè)定,通過三元組的方式構(gòu)建建筑信息實(shí)體與關(guān)系以得到運(yùn)維知識(shí)圖譜;
30、(3-2)、對(duì)智慧建筑運(yùn)維中可能出現(xiàn)的信息問詢進(jìn)行了系統(tǒng)的統(tǒng)計(jì)分析,并歸類為數(shù)據(jù)條件分析、基礎(chǔ)數(shù)據(jù)查詢、數(shù)據(jù)比較判斷和高級(jí)數(shù)據(jù)分析四大類別;針對(duì)各類問詢?cè)O(shè)計(jì)了少量的典型場景下的問詢,并給出了相應(yīng)的sql查詢語句作為參考示例;
31、作為本發(fā)明所述的一種基于知識(shí)增強(qiáng)大語言模型的智慧建筑運(yùn)維信息問詢方法進(jìn)一步優(yōu)化方案,步驟(4)包括以下步驟:
32、(4-1)、在運(yùn)維知識(shí)圖譜上的搜索基于建筑實(shí)體的類優(yōu)先級(jí)進(jìn)行,具體過程如下:
33、步驟411、依據(jù)問詢中涉及的建筑實(shí)體間有明顯的類型區(qū)別和級(jí)別從屬關(guān)系,定義建筑層級(jí)信息實(shí)體分類及其優(yōu)先級(jí)(rank):floor(rank?1)、region(rank?2)、electricitycomsuption?group(rank?2)、energy?comsuption?datas(rank?3)、environment?datas(rank?3)、standard?rules(rank?4);優(yōu)先級(jí)等級(jí)將在檢索剪枝過程中提供剪枝的依據(jù);
34、步驟412、利用original?o&m?llm對(duì)用戶提出的問詢進(jìn)行關(guān)鍵信息提取,得到問詢所涉及的建筑運(yùn)維實(shí)體ei(i=1,2,...,n),所屬的類為ci(i=1,2,...,n),同時(shí)定義搜索深度為d,每個(gè)搜索深度的中心實(shí)體
35、步驟413、根據(jù)問詢所涉及的建筑運(yùn)維實(shí)體集合e={e1,e2,...,en}和各實(shí)體所屬的類的集合c={c1,c2,...,cn},對(duì)運(yùn)維圖譜進(jìn)行子圖搜索路徑的初始化,定義問詢中所屬類的優(yōu)先級(jí)最高的建筑運(yùn)維實(shí)體定義為初始檢索的中心實(shí)體
36、步驟414、采用深度為1、寬度為n的波束搜索過程,利用關(guān)系搜索找到所有與當(dāng)前中心實(shí)體相關(guān)的三元組,從而得到候選尾實(shí)體集合
37、步驟415、采用基于類的剪枝過程,將不屬于當(dāng)前中心實(shí)體下一等級(jí)的尾實(shí)體剪枝刪除;
38、步驟416、利用提示信息,通過llm對(duì)候選尾實(shí)體集合與原始問詢的相關(guān)度進(jìn)行判斷和評(píng)分,從而篩選出與問題具有相關(guān)性的三元組及其對(duì)應(yīng)的尾實(shí)體集合rd(d=1,2,…,m),以此得到尾實(shí)體和中心實(shí)體的并集
39、步驟417、根據(jù)從問詢中得到的類別集c作為搜索深度的判斷條件,即es中對(duì)應(yīng)的建筑實(shí)體類別能夠覆蓋問詢中出現(xiàn)的類別集c時(shí),即確保了與問詢相關(guān)的所有子圖均已被檢索到;若無法覆蓋,則令rd中的實(shí)體作為下一深度搜索的中心實(shí)體并重復(fù)步驟414-步驟417,直到es中實(shí)體所屬的類完全覆蓋類別集c;以此提取出所有與問詢相關(guān)的知識(shí)三元組與所對(duì)應(yīng)的類;
40、(4-2)、針對(duì)示例的搜索采用歐氏距離評(píng)估用戶問詢與示例庫中每一個(gè)示例問題之間的相似度,根據(jù)計(jì)算出的相關(guān)性評(píng)分對(duì)所有的示例進(jìn)行排序,并選取與問詢相關(guān)度最高的前三個(gè)示例。
41、(4-3)、在設(shè)計(jì)的提示模板下引導(dǎo)llm將上述問詢相關(guān)的類、三元組和示例轉(zhuǎn)化為連續(xù)文本形式的知識(shí)提示。
42、作為本發(fā)明所述的一種基于知識(shí)增強(qiáng)大語言模型的智慧建筑運(yùn)維信息問詢方法進(jìn)一步優(yōu)化方案,步驟(5)包括以下步驟:
43、(5-1)采用經(jīng)過數(shù)據(jù)預(yù)處理得到的運(yùn)維數(shù)據(jù)庫;
44、(5-2)采用經(jīng)過qlora微調(diào)的original?o&m?llm;
45、(5-3)采用由運(yùn)維知識(shí)圖譜和示例庫組成的外部知識(shí)庫;
46、(5-4)將外部知識(shí)庫中得到的知識(shí)提示用以增強(qiáng)微調(diào)后的original?o&m?llm,得到核心模型knowledge-enhanced?o&m?llm,通過用戶問詢所涉及的建筑運(yùn)維知識(shí),指導(dǎo)核心模型進(jìn)行第一次生成,即產(chǎn)生正確的sql語句完成對(duì)運(yùn)維數(shù)據(jù)庫的檢索,得到相關(guān)數(shù)據(jù)作為問詢所需的回復(fù)生成依據(jù);
47、(5-5)返回的相關(guān)數(shù)據(jù)將與問詢一并作為上下文信息,knowledge-enhanced?o&mllm根據(jù)此上下文信息進(jìn)行第二次生成,即針對(duì)用戶的問詢提供合理的運(yùn)維分析和建議。
48、本發(fā)明還提供一種基于知識(shí)增強(qiáng)大語言模型的智慧建筑運(yùn)維信息問詢系統(tǒng),應(yīng)用上述的基于知識(shí)增強(qiáng)大語言模型的智慧建筑運(yùn)維信息問詢方法,包括:
49、qlora模型微調(diào)單元:用于利用所述混合微調(diào)數(shù)據(jù)集對(duì)所選的基礎(chǔ)模型進(jìn)行微調(diào),強(qiáng)化大語言模型完成運(yùn)維信息問詢?nèi)蝿?wù)的能力,獲取original?o&m?llm;
50、運(yùn)維大語言模型子任務(wù)單元:用于利用original?o&m?llm根據(jù)輸入信息完成關(guān)鍵信息提取、知識(shí)嵌入文本、問詢相關(guān)數(shù)據(jù)檢索三個(gè)子任務(wù);
51、所述關(guān)鍵信息提取是指利用original?o&m?llm提取用戶問詢中所含的關(guān)鍵信息,并將所述信息作為外部知識(shí)檢索單元中的知識(shí)檢索與文本向量匹配的輸入;
52、所述知識(shí)嵌入文本是指利用original?o&m?llm基于提示模板對(duì)外部知識(shí)檢索得到的相關(guān)類、三元組和示例進(jìn)行文本填充,獲取文本形式知識(shí);
53、所述問詢相關(guān)數(shù)據(jù)檢索是指利用knowledge-enhanced?o&m?llm基于數(shù)據(jù)庫描述與用戶問詢的上下文對(duì)運(yùn)維數(shù)據(jù)集進(jìn)行相關(guān)數(shù)據(jù)檢索,輸出sql查詢語句,并在查詢后得到相關(guān)的數(shù)據(jù)信息;
54、外部知識(shí)檢索單元:用于利用所述的問詢關(guān)鍵信息對(duì)運(yùn)維知識(shí)圖譜和示例庫分別進(jìn)行知識(shí)檢索和文本向量匹配,得到問詢相關(guān)的知識(shí)信息,即類、三元組、示例;
55、所述知識(shí)檢索是基于建筑實(shí)體的類優(yōu)先級(jí)的知識(shí)圖譜搜索算法實(shí)現(xiàn);
56、所述文本向量匹配是基于歐氏距離計(jì)算文本向量的相似度實(shí)現(xiàn);
57、運(yùn)維數(shù)據(jù)庫查詢單元:用于存儲(chǔ)所述數(shù)據(jù)預(yù)處理后的運(yùn)維數(shù)據(jù);
58、所述運(yùn)維數(shù)據(jù)在類別上包含六維環(huán)境監(jiān)測數(shù)據(jù)、用水能耗監(jiān)測數(shù)據(jù)、用電能耗監(jiān)測數(shù)據(jù)、監(jiān)測設(shè)備點(diǎn)位信息;
59、運(yùn)維大語言模型對(duì)話生成單元:用于利用對(duì)original?o&m?llm進(jìn)行知識(shí)增強(qiáng)后得到的knowledge-enhanced?o&m?llm,根據(jù)用戶問詢及上述單元獲得的問詢相關(guān)上下文生成問詢相關(guān)的運(yùn)維分析和建議;
60、用戶交互平臺(tái):用于輸入用戶問詢以及保存用戶與模型的歷史對(duì)話記錄。
61、本發(fā)明的有益效果為:
62、本發(fā)明所述的一種基于知識(shí)增強(qiáng)大語言模型的智慧建筑運(yùn)維信息問詢方法,借助于混合建筑運(yùn)維場景的text2sql數(shù)據(jù)集對(duì)llm進(jìn)行微調(diào)來實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)檢索;充分發(fā)揮融合知識(shí)圖譜的優(yōu)勢,最大程度地利用建筑空間結(jié)構(gòu)、設(shè)備與監(jiān)測數(shù)據(jù)、運(yùn)維相關(guān)規(guī)則等豐富的信息資源;并借此根據(jù)用戶問詢生成相應(yīng)的運(yùn)維分析與建議,這更加滿足智慧建筑背景下的運(yùn)維需求,極大地減少了運(yùn)維過程中的人工操作。