本發(fā)明屬于但不限于行業(yè)分類詞典,尤其涉及一種基于大模型的多語言行業(yè)詞典建立方法及系統(tǒng)。
背景技術:
1、行業(yè)分類詞典通?;谝惶淄暾男袠I(yè)分類標準或體系。這套標準涵蓋了各個行業(yè)領域,包括制造業(yè)、服務業(yè)、金融業(yè)等。行業(yè)分類詞典是一種用于企業(yè)識別其行業(yè)的專業(yè)工具,旨在幫助企業(yè)明確其所屬的行業(yè)領域,以便更好地定位和開展業(yè)務。行業(yè)分類詞典通常包含了多個行業(yè)的分類標準和分類詞匯,這些詞匯和分類標準可以用于指導企業(yè)對其業(yè)務和市場進行細分,幫助企業(yè)更加準確地了解自己所處的行業(yè)環(huán)境和競爭態(tài)勢。因此,它不僅是企業(yè)進行市場分析和研究的重要工具,也是企業(yè)制定戰(zhàn)略和決策的重要參考依據。
2、行業(yè)分類詞典的構建通常采用基于規(guī)則或基于統(tǒng)計的方法。其中,基于規(guī)則的方法主要依據行業(yè)分類標準,手動構建詞典的詞匯和分類規(guī)則;而基于統(tǒng)計的方法則利用大量的文本數據,通過機器學習和自然語言處理技術自動提取詞匯的特征和分類信息。
3、目前行業(yè)分類詞典的構建需要使用自然語言處理技術,包括詞法分析、句法分析、語義理解等。這些技術可以幫助從文本中提取關鍵信息,理解詞匯和短語的語義和上下文,從而進行準確的行業(yè)分類。還需要大數據與云計算能力,行業(yè)分類詞典的構建需要處理大量的數據和進行復雜的計算。大數據技術和云計算平臺可以提供強大的存儲和計算能力,支持對海量數據的分析和處理,從而提高行業(yè)分類的效率和準確性。同時,構建行業(yè)分類詞典還需要結合領域知識和專家指導。領域知識庫包含了特定領域的專業(yè)知識和術語,而專家指導則可以為詞典的構建提供寶貴的經驗和建議。
4、一種行業(yè)詞典建立的方法是基于用戶搜索行為日志,即利用用戶的行業(yè)認知,通過用戶的搜索詞和對應的被點擊的搜索結果,經過對點擊概率、搜索頻率、搜索詞拆分、建立模糊索引等方式形成模糊詞典。
5、另一種行業(yè)詞典的生成是基于行業(yè)術語和對應文檔集,針對候選術語,進行行業(yè)相關度分析,采用卡方校驗或信息增益算法,計算每個所述候選術語與所屬行業(yè)類別的相關度;根據相關度的大小和對候選術語的共現分析和關聯關系挖掘,生成行業(yè)詞匯,最終建立行業(yè)詞典。
6、然而,現有的方法在建立行業(yè)詞典時,由于需要考慮到不同行業(yè)的專業(yè)性、多樣性、動態(tài)性和復雜性等方面,需要耗費大量的時間和資源來進行技術整合、數據預處理、模型訓練和調優(yōu)等,實施難度較大,實施時間較長。其次,由于詞典需要盡地包含所有行業(yè)中的所有重要詞匯和短語,包括一些專業(yè)術語、縮寫、俚語等,這就需要投入大量的人力、時間和資源,是一項巨大的工程。然后,考慮到詞典需要適應行業(yè)的動態(tài)性和變化性,行業(yè)中的詞匯和短語會隨著時間推移而發(fā)生變化,例如出現新的術語、短語或概念,或者原有的詞匯和短語的含義發(fā)生改變。因此,詞典需要不斷地更新和維護,以保持其時效性和準確性。
7、此外,受到語言的限制,以往建立的詞典不能滿足多語言的用戶需求。
8、鑒于上述分析,現有技術存在的急需解決的技術問題為:目前行業(yè)詞典構建過程中存在的高耗時、低效率、準確率不高、詞典覆蓋范圍不全、多語言較難統(tǒng)一的問題。
技術實現思路
1、針對現有技術存在的問題,本發(fā)明提供了一種基于大模型的多語言行業(yè)詞典建立方法及系統(tǒng)。
2、本發(fā)明是這樣實現的,一種基于大模型的多語言行業(yè)詞典建立方法,包括以下步驟:
3、步驟一:行業(yè)節(jié)點搜索,通過大模型進行廣度搜索,以獲取與產品和服務相關的行業(yè)節(jié)點信息;
4、步驟二:行業(yè)關系識別,根據美國或其他國家現有的行業(yè)大分類為起始點,使用大模型進行行業(yè)名稱的搜索;
5、步驟三:行業(yè)分類建立,通過大模型識別行業(yè)節(jié)點名稱之間的包含、同級、從屬等關系,標記已識別的行業(yè)節(jié)點名稱并納入行業(yè)詞典;未納入詞典的節(jié)點歸屬為“未分類行業(yè)節(jié)點”;
6、步驟四:行業(yè)關系計算,對所有未分類行業(yè)節(jié)點與初步構建的行業(yè)分類進行行業(yè)相似度m和行業(yè)包含度c計算;
7、步驟五:廣度搜索,從第二層級行業(yè)開始對每個層級的行業(yè)節(jié)點,以廣度優(yōu)先的方式逐級檢測相鄰的行業(yè)節(jié)點;
8、步驟六:深度搜索,從第一層級第一個行業(yè)節(jié)點開始以深度優(yōu)先的方式縱向探索行業(yè)鏈;
9、步驟七:行業(yè)詞典建立,根據行業(yè)名稱,查找相關的化學式、學術名稱、簡稱、同義詞、近義詞、俚語、其他名稱等,以完善行業(yè)名稱,并構建行業(yè)詞典;
10、步驟八:行業(yè)詞典驗證,從企業(yè)和市場兩個方面進行驗證;
11、步驟九:行業(yè)詞典更新,定期更新和維護行業(yè)分類詞典。
12、進一步,包括以下步驟:
13、(1)行業(yè)節(jié)點搜索:利用大模型對輸入的產品或服務關鍵詞進行語義解析,通過廣度優(yōu)先搜索獲取與輸入關鍵詞相關的行業(yè)節(jié)點信息,并提取行業(yè)節(jié)點的名稱及其上下文;
14、(2)行業(yè)關系分類:基于預設的標準行業(yè)分類體系(如naics、isic等),利用大模型識別行業(yè)節(jié)點之間的包含關系、同級關系或從屬關系,標記已分類的行業(yè)節(jié)點,并將未分類的行業(yè)節(jié)點歸入“未分類行業(yè)節(jié)點”;
15、(3)行業(yè)詞典建立:通過語義擴展,構建行業(yè)節(jié)點的關聯詞匯表,包括但不限于化學式、簡稱、同義詞、近義詞、俚語及學術術語,并生成行業(yè)分類的多語言詞典。
16、進一步,所述步驟(2)中行業(yè)關系分類包括以下子步驟:
17、(1)利用大模型計算未分類行業(yè)節(jié)點與已分類行業(yè)節(jié)點的語義相似度m,通過嵌入向量的余弦相似度判斷行業(yè)節(jié)點間的相似性;
18、(2)利用大模型計算未分類行業(yè)節(jié)點與已分類行業(yè)節(jié)點的行業(yè)包含度c,基于語義上下文判斷行業(yè)節(jié)點是否具有包含關系;
19、(3)根據相似度m和包含度c的綜合得分,將未分類行業(yè)節(jié)點歸類至最佳匹配的行業(yè)分類中,或保留為特殊行業(yè)節(jié)點供人工審核。
20、進一步,所述行業(yè)詞典建立步驟還包括以下內容:
21、(1)通過深度優(yōu)先搜索算法,識別行業(yè)鏈條中各層級節(jié)點的縱向關系,構建行業(yè)上下游關聯;
22、(2)針對每個行業(yè)節(jié)點,通過大模型生成的上下文語義,自動提取常用術語、行業(yè)熱詞及市場表達;
23、(3)通過企業(yè)和市場數據驗證行業(yè)詞典的準確性,基于錯誤匹配或新增行業(yè)節(jié)點對詞典進行動態(tài)更新。
24、進一步,所述步驟一中行業(yè)節(jié)點搜索包括:
25、首先,針對產品,按照產品名稱逐一查詢其生產流程、原材料、技術、設備、中間產品等關鍵信息;對于每一生產環(huán)節(jié),進一步查詢相關工作流程、細分工序、原材料、技術、設備、中間產品,并持續(xù)迭代,直至獲取所有相關信息;這一過程將得到包括原材料、技術、設備和產品等在內的詳盡數據,并整合至產品節(jié)點數據集;
26、同樣,以服務為起點,按照服務名稱逐一查詢服務對象、服務內容、服務流程、所需技術、所需設備、應用場景等關鍵信息;對于每一服務環(huán)節(jié),查詢相關服務對象、服務內容、工作流程、所需技術、所需設備、應用場景,并不斷迭代,直至獲得所有相關信息;此過程將得到服務對象、服務內容、技術、設備和應用場景等數據,并整合至服務節(jié)點數據集。
27、進一步,所述步驟二中行業(yè)關系識別包括:
28、設定13大行業(yè)為第一層級,找到每個行業(yè)下的子行業(yè)節(jié)點,形成第二層級;根據第二層級名稱,進一步查找每個行業(yè)分類下的同級行業(yè)節(jié)點,將所有同級行業(yè)節(jié)點添加至第二層級;繼續(xù)根據第二層級名稱查找子行業(yè)節(jié)點和包含關系節(jié)點,構建行業(yè)分類的第三層級,依此類推;直至查找到最后一個層級,將行業(yè)名稱與行業(yè)層級存儲至行業(yè)關系數據集。
29、進一步,所述步驟四中使用超文本匹配算法計算行業(yè)匹配度,考慮行業(yè)名稱匹配度m(name)和實質匹配度m(real),行業(yè)匹配度m=wm(name)*m(name)+wm(real)*m(real);考慮行業(yè)名稱包含度c(name)和實質包含度c(real),行業(yè)包含度c=wc(name)*m(name)+wc(real)*m(real)。
30、進一步,行業(yè)名稱匹配度m(name)采用余弦相似度計算方法;通過比較兩個行業(yè)名稱之間的向量表示來度量它們之間的相似程度,使用公式余弦相似度值范圍在0到1之間,1表示完全相似,0表示完全不同。
31、行業(yè)實質匹配度m(real),從本質、用途等多個角度出發(fā),判斷產品或服務的最真實本質。通過定義多個維度的屬性(a)來描述行業(yè),包括技術復雜性、產品類型、應用場景、性能參數、可定制性等,每個維度都有具體的量化指標,例如技術復雜性:采用技術難度指數,例如使用從1到10的評分表示,10表示最高難度。應用場景:使用場景編碼或分類。性能參數:包括速度、效率、容量等,使用具體的數值或評分進行量化。通過對每個維度的評分,最終通過計算得到實質匹配度。
32、進一步,所述步驟五中廣度搜索包括:
33、對于每個檢測到的節(jié)點,根據行業(yè)匹配度m,將大于閾值的行業(yè)節(jié)點歸類為同級行業(yè)節(jié)點;該過程迭代進行,直至所有同級節(jié)點都被檢測完畢。通過大模型檢測未分類行業(yè)節(jié)點是否可添加至當前行業(yè)層級,將可添加的節(jié)點納入當前行業(yè)層級。檢測每層級每個行業(yè)節(jié)點的同級行業(yè)節(jié)點是否已包含在該層級行業(yè)分類中。
34、進一步,所述步驟六中深度搜索包括:
35、對于每個檢測到的節(jié)點,根據行業(yè)包含度c,將大于閾值的行業(yè)節(jié)點歸類為子行業(yè)節(jié)點,該過程迭代進行,直至所有子行業(yè)節(jié)點都被檢測完畢。通過大模型檢測未分類行業(yè)節(jié)點是否可添加至子行業(yè)層級,將可添加的節(jié)點納入子行業(yè)層級。檢測每行業(yè)鏈中每個行業(yè)節(jié)點的子行業(yè)節(jié)點是否已包含在下一層級行業(yè)分類中。
36、進一步,所述步驟八中行業(yè)詞典驗證包括:
37、通過大模型驗證企業(yè)關聯的行業(yè)名稱,檢驗企業(yè)主營業(yè)務、原材料、產品、服務是否完全包含在行業(yè)詞典內。根據行業(yè)報告驗證報告中包含的行業(yè)是否全部在行業(yè)詞典內。
38、進一步,所述步驟九中行業(yè)詞典更新包括:
39、通過企業(yè)公告、新聞資訊等信息找到新產品名稱,進行行業(yè)匹配度和包含度的計算,將新節(jié)點名稱添加至行業(yè)詞典中;根據多語言行業(yè)關系,進行行業(yè)匹配度和包含度的計算,將新節(jié)點名稱添加至行業(yè)詞典中;通過監(jiān)測行業(yè)的最新發(fā)展動態(tài)和變化趨勢,利用大模型的推斷能力,對新的詞匯、短語或概念進行預測和分類,定期更新和維護行業(yè)分類詞典,以保障詞典的實時性和更新性,適應行業(yè)變化和語言演化。
40、本發(fā)明的另一目的在于提供一種基于大模型的多語言行業(yè)詞典建立方法的基于大模型的多語言行業(yè)詞典建立系統(tǒng),包括:
41、行業(yè)節(jié)點搜索模塊,通過大模型進行廣度搜索,以獲取與產品和服務相關的行業(yè)節(jié)點信息;
42、行業(yè)關系識別模塊,根據美國或其他國家現有的行業(yè)大分類為起始點,使用大模型進行行業(yè)名稱的搜索;
43、行業(yè)分類建立模塊,通過大模型識別行業(yè)節(jié)點名稱之間的包含、同級、從屬等關系,標記已識別的行業(yè)節(jié)點名稱并納入行業(yè)詞典;未納入詞典的節(jié)點歸屬為“未分類行業(yè)節(jié)點”;
44、行業(yè)關系計算模塊,對所有未分類行業(yè)節(jié)點與初步構建的行業(yè)分類進行行業(yè)相似度m和行業(yè)包含度c計算;
45、廣度搜索模塊,從第二層級行業(yè)開始對每個層級的行業(yè)節(jié)點,以廣度優(yōu)先的方式逐級檢測相鄰的行業(yè)節(jié)點;
46、深度搜索模塊,從第一層級第一個行業(yè)節(jié)點開始以深度優(yōu)先的方式縱向探索行業(yè)鏈;
47、行業(yè)詞典建立模塊,根據行業(yè)名稱,查找相關的化學式、學術名稱、簡稱、同義詞、近義詞、俚語、其他名稱等,以完善行業(yè)名稱,并構建行業(yè)詞典;
48、行業(yè)詞典驗證模塊,從企業(yè)和市場兩個方面進行驗證;
49、行業(yè)詞典更新模塊,定期更新和維護行業(yè)分類詞典。
50、結合上述的技術方案和解決的技術問題,本發(fā)明所要保護的技術方案所具備的優(yōu)點及積極效果為:
51、第一、本發(fā)明提出了一種基于大模型的多語言行業(yè)分類詞典建立方法,建立超文本匹配算法,通過大模型結合廣度搜索和深度搜索來建立多語言行業(yè)分類詞典,通過廣度搜索可以獲取查詢詞匯或短語語義相近的術語和表達方式,通過深度搜索可以發(fā)現查詢詞匯的上下位關系術語和表達方式。這種方法相較于傳統(tǒng)的詞典構建方法主要有以下技術優(yōu)勢:
52、1、將大模型引入到詞典構建中,大模型天然的海量背景知識提升了所建詞典的覆蓋率,大模型所具備的推理能力提升了行業(yè)詞典發(fā)現的準確率。
53、2、創(chuàng)新的提出了一種超文本匹配計算方法,該方法將名稱匹配和實質匹配相融合,在文本匹配中綜合考慮多種維度,精準權衡行業(yè)名稱和實質關系,顯著提升了行業(yè)節(jié)點的分類準確性。
54、3、將深度檢索和廣度檢索和大模型有機結合,從兩個層面保證了詞典的豐富度。
55、4、采用高度自動化的行業(yè)詞典構建方法,提高了行業(yè)詞典構建的效率。
56、綜上所述,該方法通過大模型結合廣度搜索和深度搜索來建立多語言行業(yè)分類詞典,能綜合全面的考慮到不同行業(yè)的專業(yè)性、多樣性、動態(tài)性和復雜性等方面,可以大大提高詞典建立的效率和準確性,解決以往建設時間長和建設難度高的問題,節(jié)省大量的人力、時間和資源。能考慮到詞典需要適應行業(yè)的動態(tài)性和變化性,可以實現詞典的自主更新和維護,以適應行業(yè)變化和語言演化,保持其時效性和準確性。此外,受到語言的限制,以往建立的詞典不能滿足多語言的用戶需求,通過大模型可以解決多語言支持問題,支持不同語言背景的行業(yè)分類需求,滿足不同語言背景的用戶需求。
57、第二,作為本發(fā)明的權利要求的創(chuàng)造性輔助證據,還體現在以下幾個重要方面:
58、(1)本發(fā)明的技術方案轉化后的預期收益和商業(yè)價值為:
59、通過提高行業(yè)分類詞典的自動化構建效率和準確性,本發(fā)明能夠助力海外企業(yè)更精準地定位自身行業(yè),優(yōu)化市場策略,從而增強市場競爭力。此外,多語言支持的特性使得本發(fā)明能夠廣泛應用于國際貿易、跨境電商等領域,滿足全球范圍內不同語言背景用戶的行業(yè)分類需求,進一步拓寬了市場應用空間。因此,本發(fā)明的實施將為企業(yè)帶來可觀的經濟效益,并推動相關行業(yè)的快速發(fā)展。
60、(2)本發(fā)明的技術方案填補了國內外業(yè)內技術空白:
61、本發(fā)明的技術方案填補了國內外在基于大模型的多語言行業(yè)分類詞典建立方法上的技術空白。傳統(tǒng)的詞典構建方法往往受限于語言種類、構建效率和準確性,難以滿足日益增長的全球化和多語言需求。而本發(fā)明通過引入大模型,并結合廣度搜索和深度搜索策略,不僅提高了詞典的覆蓋率和準確率,還實現了對多種語言的支持,為行業(yè)分類詞典的建立提供了一種全新的、高效的解決方案。這一創(chuàng)新性的技術方案,無疑為國內外相關行業(yè)的技術發(fā)展注入了新的活力,推動了行業(yè)技術的進步和升級。
62、(3)本發(fā)明的技術方案解決了人們一直渴望解決、但始終未能獲得成功的技術難題:
63、本發(fā)明的技術方案成功攻克了人們長期以來一直渴望解決但始終未能取得突破性進展的技術難題——即如何高效、準確地構建支持多語言且能夠適應行業(yè)動態(tài)變化的行業(yè)分類詞典。傳統(tǒng)方法受限于語言障礙、構建周期長、更新維護困難等問題,難以滿足快速變化的市場需求和日益增長的多語言服務需求。本發(fā)明的提出,不僅大幅提升了詞典構建的效率和準確性,還通過大模型的引入和深度廣度搜索的結合,實現了詞典的自主更新和多語言支持,真正意義上解決了這一技術難題,為行業(yè)分類詞典的未來發(fā)展開辟了新的道路。
64、(4)本發(fā)明的技術方案克服了技術偏見:
65、本發(fā)明的技術方案克服了以往在技術領域中存在的偏見,即認為行業(yè)分類詞典的構建必須依賴于大量人工干預和傳統(tǒng)方法,且難以同時實現多語言支持和高效更新。通過引入大模型技術,并結合創(chuàng)新的超文本匹配算法以及深度廣度搜索策略,本發(fā)明不僅顯著提高了詞典構建的自動化程度和準確性,還成功實現了對多種語言的全面支持,以及詞典的自主更新和維護。這一技術方案打破了傳統(tǒng)觀念的限制,證明了在大數據和人工智能技術的支持下,行業(yè)分類詞典的構建可以更加高效、智能和靈活,為相關領域的技術發(fā)展注入了新的活力和性。