本發(fā)明涉及數(shù)據(jù)處理與人工智能,特別是涉及一種基于ai大模型的全球院校信息教育咨詢方法及系統(tǒng)。
背景技術(shù):
1、隨著全球化的不斷深入,越來越多的學(xué)生和機(jī)構(gòu)需要檢索、比較、分析全球范圍內(nèi)大學(xué)及相關(guān)專業(yè)的信息,以做出更精準(zhǔn)的教育和職業(yè)規(guī)劃。然而,在現(xiàn)有技術(shù)中,教育信息系統(tǒng)往往零散地分布在各個(gè)國家、各個(gè)地區(qū)或機(jī)構(gòu),數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一,且缺少對跨語言、跨學(xué)科復(fù)雜查詢的支持。具體而言:
2、(1)多源數(shù)據(jù)難以整合
3、世界范圍內(nèi)的院校信息通常分布在不同國家或地區(qū)的教育數(shù)據(jù)庫,或保存在不同語言版本的網(wǎng)站上?,F(xiàn)有系統(tǒng)往往難以統(tǒng)一整合這些數(shù)據(jù),導(dǎo)致檢索效率和查詢精度有限。
4、(2)缺乏靈活的跨語言支持
5、教育信息用戶常來自世界各地,期待能夠用母語進(jìn)行檢索、咨詢。然而傳統(tǒng)系統(tǒng)往往僅支持某一語言或固定幾種語言,難以滿足全球用戶的多語言需求。
6、(3)個(gè)性化深度咨詢能力不足
7、現(xiàn)有的教育信息檢索以關(guān)鍵字和簡單文本搜索為主,缺乏利用深度學(xué)習(xí)模型理解用戶上下文語義并提供個(gè)性化、多維度分析結(jié)果的能力。
8、針對上述問題,傳統(tǒng)方案多依賴通過手動或系統(tǒng)配置的查詢語句(例如sql)來檢索數(shù)據(jù),或簡化為固定模板下的檢索模式。這就導(dǎo)致了在處理多表關(guān)聯(lián)時(shí),或基于用戶上下文的跨語言查詢場景下,難以高效給出精準(zhǔn)結(jié)果。
9、因此,如何有效整合全球院校數(shù)據(jù),提供多語言、高準(zhǔn)確度且個(gè)性化的教育信息咨詢服務(wù),成為當(dāng)前教育信息檢索與人工智能領(lǐng)域的一大技術(shù)挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的是提供一種基于ai大模型的全球院校信息教育咨詢方法及系統(tǒng),結(jié)合多語言知識圖譜、預(yù)訓(xùn)練大模型和人工智能推理引擎,顯著提升了全球院校信息查詢的智能化水平。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
3、一種基于ai大模型的全球院校信息教育咨詢方法,包括:
4、收集全球高校的多種語言的官方信息;
5、對所述官方信息進(jìn)行預(yù)處理和特征抽取,以形成知識圖譜;
6、獲取含多語言語料的開放預(yù)訓(xùn)練大模型,并對所述開放預(yù)訓(xùn)練大模型進(jìn)行訓(xùn)練和微調(diào),得到預(yù)訓(xùn)練語言大模型;
7、通過前端頁面或語音設(shè)備獲取自然語言咨詢,并將所述自然語言咨詢輸入至所述預(yù)訓(xùn)練語言大模型中進(jìn)行意圖識別,得到關(guān)鍵識別信息;
8、基于人工智能推理引擎,根據(jù)所述關(guān)鍵識別信息調(diào)用知識圖譜進(jìn)行檢索,得到檢索結(jié)果;所述檢索結(jié)果包括滿足條件的院校列表與入學(xué)標(biāo)準(zhǔn)以及關(guān)聯(lián)到院校的地理位置、語言環(huán)境、往年錄取人數(shù);
9、根據(jù)所述檢索結(jié)果進(jìn)行可視化展示和格式化推薦。
10、優(yōu)選地,所述官方信息包括:院校名稱、地理位置、專業(yè)信息、獎(jiǎng)學(xué)金信息和語言要求;所述專業(yè)信息包括課程設(shè)置和學(xué)制。
11、優(yōu)選地,對所述官方信息進(jìn)行預(yù)處理和特征抽取,以形成知識圖譜,包括:
12、對所述官方信息進(jìn)行數(shù)據(jù)去重,得到去重文本;
13、基于上下文關(guān)系,對所述去重文本進(jìn)行文本分類,得到分類數(shù)據(jù);
14、基于自然語言處理技術(shù),對分類數(shù)據(jù)中描述中的師資情況、科研能力、就業(yè)率的要素進(jìn)行特征抽取,構(gòu)建關(guān)聯(lián)關(guān)系;
15、根據(jù)所述要素和所述關(guān)聯(lián)關(guān)系形成知識圖譜。
16、優(yōu)選地,基于上下文關(guān)系,對所述去重文本進(jìn)行文本分類,得到分類數(shù)據(jù),包括:
17、將所述去重文本輸入到文本上下文關(guān)系特征提取層提取出上下文關(guān)系特征信息;
18、將所述去重文本輸入到全局特征提取層提取出全局特征信息;
19、將所述上下文關(guān)系特征信息和所述全局特征信息進(jìn)行融合得到融合文本特征;
20、將所述融合文本特征輸入至訓(xùn)練好的文本分類模型中,得到所述分類數(shù)據(jù)。
21、優(yōu)選地,將所述去重文本輸入到文本上下文關(guān)系特征提取層提取出上下文關(guān)系特征信息,包括:
22、使用預(yù)設(shè)的預(yù)訓(xùn)練語言模型提取出所述去重文本的初始特征信息;
23、將所述初始特征信息輸入到正向門控循環(huán)單元和反向門控循環(huán)單元中;
24、將所述正向門控循環(huán)單元和所述反向門控循環(huán)單元的輸出進(jìn)行拼接得到上下文關(guān)系特征信息。
25、優(yōu)選地,將所述正向門控循環(huán)單元和所述反向門控循環(huán)單元的輸出進(jìn)行拼接得到上下文關(guān)系特征信息,包括:
26、采用公式:
27、
28、將所述正向門控循環(huán)單元和所述反向門控循環(huán)單元的輸出進(jìn)行拼接得到上下文關(guān)系特征信息;其中,ht={h1,h2,…h(huán)l}表示在t時(shí)刻輸入的初始特征信息,表示在t時(shí)刻正向門控循環(huán)單元的輸出、表示在t時(shí)刻反向門控循環(huán)單元的輸出,gru表示門控循環(huán)單元,g表示上下文關(guān)系特征信息。
29、優(yōu)選地,將所述去重文本輸入到全局特征提取層提取出全局特征信息,包括:
30、將所述去重文本的初始特征信息依次輸入到卷積層和池化層中得到全局特征信息;其中,全局特征信息提取公式為:
31、ci=f(ω·h+b)
32、
33、式中,f為激活函數(shù),ω為卷積核,h為卷積核尺寸,b為偏值,ci為卷積層第i個(gè)提取的特征向量,表示3個(gè)不同卷積核提取的特征在經(jīng)過最大池化層后的值,c表示提取出的全局特征信息。
34、優(yōu)選地,獲取含多語言語料的開放預(yù)訓(xùn)練大模型,并對所述開放預(yù)訓(xùn)練大模型進(jìn)行訓(xùn)練和微調(diào),得到預(yù)訓(xùn)練語言大模型,包括:
35、選擇含多語言語料的開放預(yù)訓(xùn)練大模型;
36、對預(yù)設(shè)的多語料樣本集進(jìn)行數(shù)據(jù)去重、語句格式化和切分,得到結(jié)構(gòu)化微調(diào)語料;所述多語料樣本集包括:留學(xué)指南、院校比較、專業(yè)解讀的文本信息;
37、利用所述結(jié)構(gòu)化微調(diào)語料對所述開放預(yù)訓(xùn)練大模型進(jìn)行有監(jiān)督,以確保模型在教育領(lǐng)域的詞匯和表達(dá)能力得到強(qiáng)化,得到基礎(chǔ)教育場景微調(diào)模型;
38、利用預(yù)設(shè)的多語言小樣本指令數(shù)據(jù)對所述基礎(chǔ)教育場景微調(diào)模型進(jìn)行小樣本指令微調(diào),確保模型理解和回答不同語言表述的教育信息咨詢問題,得到多語言強(qiáng)化后的預(yù)訓(xùn)練語言大模型。
39、優(yōu)選地,基于人工智能推理引擎,根據(jù)所述關(guān)鍵識別信息調(diào)用知識圖譜進(jìn)行檢索,得到檢索結(jié)果,包括:
40、將所述關(guān)鍵信息與所述知識圖譜的實(shí)體和屬性名進(jìn)行映射,構(gòu)造可執(zhí)行的檢索請求;
41、根據(jù)所述可執(zhí)行的檢索請求在知識圖譜中執(zhí)行檢索,以匹配滿足條件的院校實(shí)體以及關(guān)聯(lián)屬性,得到初步結(jié)果;
42、基于預(yù)設(shè)的業(yè)務(wù)規(guī)則對所述初步結(jié)果進(jìn)行篩選、排序,并將入學(xué)標(biāo)準(zhǔn)、地理位置、往年錄取人數(shù)的信息進(jìn)行整合、去重或合并,得到所述檢索結(jié)果;所述檢索結(jié)果包括院校匹配清單及擴(kuò)展信息。
43、一種基于ai大模型的全球院校信息教育咨詢系統(tǒng),包括:
44、信息收集單元,用于收集全球高校的多種語言的官方信息;
45、圖譜構(gòu)建單元,用于對所述官方信息進(jìn)行預(yù)處理和特征抽取,以形成知識圖譜;
46、模型訓(xùn)練單元,用于獲取含多語言語料的開放預(yù)訓(xùn)練大模型,并對所述開放預(yù)訓(xùn)練大模型進(jìn)行訓(xùn)練和微調(diào),得到預(yù)訓(xùn)練語言大模型;
47、意圖識別單元,用于通過前端頁面或語音設(shè)備獲取自然語言咨詢,并將所述自然語言咨詢輸入至所述預(yù)訓(xùn)練語言大模型中進(jìn)行意圖識別,得到關(guān)鍵識別信息;
48、檢索單元,用于基于人工智能推理引擎,根據(jù)所述關(guān)鍵識別信息調(diào)用知識圖譜進(jìn)行檢索,得到檢索結(jié)果;所述檢索結(jié)果包括滿足條件的院校列表與入學(xué)標(biāo)準(zhǔn)以及關(guān)聯(lián)到院校的地理位置、語言環(huán)境、往年錄取人數(shù);
49、可視化單元,用于根據(jù)所述檢索結(jié)果進(jìn)行可視化展示和格式化推薦。
50、根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下技術(shù)效果:
51、本發(fā)明提供了一種基于ai大模型的全球院校信息教育咨詢方法及系統(tǒng),方法包括:收集全球高校的多種語言的官方信息;對官方信息進(jìn)行預(yù)處理和特征抽取,以形成知識圖譜;獲取含多語言語料的開放預(yù)訓(xùn)練大模型,并對開放預(yù)訓(xùn)練大模型進(jìn)行訓(xùn)練和微調(diào),得到預(yù)訓(xùn)練語言大模型;通過前端頁面或語音設(shè)備獲取自然語言咨詢,并將自然語言咨詢輸入至預(yù)訓(xùn)練語言大模型中進(jìn)行意圖識別,得到關(guān)鍵識別信息;基于人工智能推理引擎,根據(jù)關(guān)鍵識別信息調(diào)用知識圖譜進(jìn)行檢索,得到檢索結(jié)果;檢索結(jié)果包括滿足條件的院校列表與入學(xué)標(biāo)準(zhǔn)以及關(guān)聯(lián)到院校的地理位置、語言環(huán)境、往年錄取人數(shù);根據(jù)檢索結(jié)果進(jìn)行可視化展示和格式化推薦。,通過多語言知識圖譜、預(yù)訓(xùn)練大模型和人工智能推理引擎的結(jié)合,為用戶提供了全面、高效、精準(zhǔn)且個(gè)性化的教育信息咨詢服務(wù),顯著提升了全球院校信息查詢和決策的智能化水平。