本發(fā)明涉及保險數(shù)據(jù)審核,更具體地說,本發(fā)明涉及一種基于大語言模型的保險數(shù)據(jù)審核系統(tǒng)。
背景技術(shù):
1、保險是指提供風(fēng)險保障的金融服務(wù),通過保險合同,保險公司向投保人承諾在約定的風(fēng)險事件發(fā)生時支付賠償金,保險服務(wù)覆蓋廣泛,包括多個領(lǐng)域,其核心目的是為被保險人或其利益相關(guān)方提供經(jīng)濟補償,降低風(fēng)險事件帶來的財務(wù)損失;保險數(shù)據(jù)是指在保險業(yè)務(wù)流程中產(chǎn)生和積累的所有信息,涵蓋了從保單簽訂、保費繳納、理賠申請到理賠結(jié)案等各環(huán)節(jié)的數(shù)據(jù),保險數(shù)據(jù)在理賠審核、風(fēng)險評估和決策制定中扮演重要角色,是保險公司防范欺詐、控制風(fēng)險、優(yōu)化運營的基礎(chǔ);
2、在現(xiàn)有技術(shù)中,保險數(shù)據(jù)審核往往依賴人工經(jīng)驗,無法針對性地處理復(fù)雜文本數(shù)據(jù)或從多維度分析理賠申請的真實性,這種傳統(tǒng)審核方式在應(yīng)對復(fù)雜或欺詐風(fēng)險時存在明顯不足,易出現(xiàn)誤判或漏判,難以滿足審核需求。
技術(shù)實現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的上述缺陷,本發(fā)明的實施例提供一種基于大語言模型的保險數(shù)據(jù)審核系統(tǒng),通過大語言模型對保險數(shù)據(jù)進(jìn)行分層分析和識別,以解決上述背景技術(shù)中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于大語言模型的保險數(shù)據(jù)審核系統(tǒng),包括數(shù)據(jù)預(yù)處理模塊、信息層劃分與標(biāo)記模塊、異常檢測模塊、風(fēng)險評分與預(yù)警模塊、反饋與模型優(yōu)化模塊;
3、數(shù)據(jù)預(yù)處理模塊用于在保險理賠前,獲取理賠申請的文本數(shù)據(jù),并對文本數(shù)據(jù)進(jìn)行清洗和標(biāo)準(zhǔn)化處理,刪除冗余信息,得到初步處理數(shù)據(jù);
4、信息層劃分與標(biāo)記模塊通過大語言模型對初步處理數(shù)據(jù)按照信息層進(jìn)行劃分標(biāo)記,信息層包括身份特征信息層、事件描述信息層、損失描述信息層、醫(yī)療報告或附屬證明信息層;
5、異常檢測模塊通過模型對比當(dāng)前申請數(shù)據(jù)和歷史申請數(shù)據(jù),若身份特征信息層檢測或事件描述信息層檢測判定為異常,則通過風(fēng)險評分與預(yù)警模塊進(jìn)行風(fēng)險評估;
6、風(fēng)險評分與預(yù)警模塊通過分析結(jié)果生成風(fēng)險評分,標(biāo)記高風(fēng)險申請并觸發(fā)預(yù)警,并用于人工復(fù)核;
7、反饋與模型優(yōu)化模塊通過將人工復(fù)核的結(jié)果反饋至模型,優(yōu)化模型識別規(guī)則,用于提升審核準(zhǔn)確度。
8、在一個優(yōu)選的實施方式中,在保險理賠前,數(shù)據(jù)預(yù)處理模塊獲取理賠申請的文本數(shù)據(jù),并對文本數(shù)據(jù)進(jìn)行清洗和標(biāo)準(zhǔn)化處理,刪除冗余信息,得到初步處理數(shù)據(jù),擬定初步處理數(shù)據(jù)集為d;
9、d={ti∣ti=clean(ri)andri∈raw?data}
10、其中d表示經(jīng)過清洗和標(biāo)準(zhǔn)化后的數(shù)據(jù)集;ti表示第i條清洗后的記錄;ri表示第i條原始數(shù)據(jù);raw?data表示原始數(shù)據(jù);函數(shù)clean(·)用于刪除冗余信息、規(guī)范文本格式,使數(shù)據(jù)標(biāo)準(zhǔn)化;數(shù)據(jù)預(yù)處理的結(jié)果是一個結(jié)構(gòu)化的數(shù)據(jù)集,供信息層劃分與標(biāo)記模塊的大語言模型進(jìn)行分類和異常檢測;
11、信息層劃分與標(biāo)記模塊通過大語言模型對初步處理數(shù)據(jù)集d進(jìn)行分類,將數(shù)據(jù)按四個信息層劃分標(biāo)記;擬定身份特征信息層為ls、事件描述信息層為le、損失描述信息層為ld、醫(yī)療報告或附屬證明信息層為lm;
12、d={ls,le,ld,lm}
13、其中l(wèi)s,le,ld,lm分別表示四個信息層。
14、在一個優(yōu)選的實施方式中,身份特征信息層檢測的判斷條件包括:當(dāng)身份信息一致性參數(shù)低于系統(tǒng)預(yù)設(shè)的身份信息一致性參數(shù)閾值且身份驗證頻率參數(shù)高于系統(tǒng)預(yù)設(shè)的身份驗證頻率參數(shù)閾值時,判定為異常;
15、事件描述信息層檢測的判斷條件包括:當(dāng)事件描述相似度參數(shù)高于系統(tǒng)預(yù)設(shè)的事件描述相似度參數(shù)閾值且事件時間一致性參數(shù)低于系統(tǒng)預(yù)設(shè)的事件時間一致性參數(shù)閾值時,判定為異常。
16、在一個優(yōu)選的實施方式中,身份特征信息層ls包括評估身份信息一致性參數(shù)psi、身份驗證頻率參數(shù)psf;
17、身份信息一致性參數(shù)psi包括姓名匹配子參數(shù)mn、證件號匹配子參數(shù)mc、地址匹配子參數(shù)ma;
18、psi用于衡量申請人提交的姓名、證件號和地址的身份信息與歷史記錄一致性,從而識別身份信息是否存在不一致的風(fēng)險;
19、psi=α·mn+β·mc+γ·ma
20、其中psi用于總體衡量身份信息的匹配程度;α、β、γ分別為姓名、證件號和地址的一致性權(quán)重,用于平衡不同信息對整體一致性的影響;
21、
22、
23、
24、其中n是歷史記錄中姓名匹配項的總數(shù);表示第i條記錄的姓名權(quán)重;表示第i條記錄的姓名是否匹配;c是歷史記錄中證件號匹配項的總數(shù);表示第i條記錄的證件號權(quán)重;表示證件號是否匹配,匹配為1,不匹配為0;a是歷史記錄中地址匹配項的總數(shù);為地址記錄的權(quán)重;為地址是否匹配的標(biāo)記;
25、身份驗證頻率參數(shù)psf包括聯(lián)絡(luò)方式變更頻率fp、地址變更頻率fa;
26、
27、其中psf用于評估聯(lián)絡(luò)方式和地址的變更頻率;σc和σa分別為聯(lián)絡(luò)方式和地址的權(quán)重系數(shù),調(diào)節(jié)二者對變更頻率的影響;t為觀察時間窗口的長度;
28、
29、
30、其中p表示聯(lián)絡(luò)方式記錄數(shù);表示第i條記錄是否發(fā)生變更;tp表示觀測時間段內(nèi)的總聯(lián)絡(luò)方式變更次數(shù);a表示地址記錄數(shù);表示地址變更情況;ta表示觀測時間段內(nèi)的總地址變更次數(shù)。
31、在一個優(yōu)選的實施方式中,事件描述信息層le包括評估事件描述相似度參數(shù)pes、事件時間一致性參數(shù)pet;
32、事件描述相似度參數(shù)pes用于對比當(dāng)前事件描述與歷史記錄的相似度;事件描述相似度參數(shù)pes包括關(guān)鍵詞相似度sk、句子結(jié)構(gòu)相似度st;
33、pes=λ·sk+μ·st
34、
35、
36、其中λ和μ為調(diào)節(jié)系數(shù),分別控制關(guān)鍵詞相似度sk和句子結(jié)構(gòu)相似度st對pes的影響權(quán)重;k為關(guān)鍵詞總數(shù);wj為第j個關(guān)鍵詞的權(quán)重;為第j個關(guān)鍵詞的匹配標(biāo)記;m為句子總數(shù);為第m個句子的匹配標(biāo)記;
37、事件時間一致性參數(shù)pet用于衡量事件發(fā)生時間和申請?zhí)峤粫r間之間的合理性;
38、
39、其中ts為事件的實際發(fā)生時間;te為申請?zhí)峤粫r間,即申請人遞交理賠申請的時間;tmax為允許的最大時間偏差。
40、在一個優(yōu)選的實施方式中,損失描述信息層ld包括評估損失金額浮動參數(shù)pdi、損失細(xì)節(jié)一致性參數(shù)pda;
41、損失金額浮動參數(shù)pdi用于衡量當(dāng)前申請與歷史記錄的損失金額差異,檢測金額是否存在異常浮動;損失細(xì)節(jié)一致性參數(shù)pda用于衡量當(dāng)前與歷史損失細(xì)節(jié)的一致性,檢測細(xì)節(jié)描述是否存在差異;
42、
43、
44、其中mcurrent為當(dāng)前理賠的損失金額;maverage為歷史相似事件的平均損失金額;wi為第i個損失細(xì)節(jié)的權(quán)重;表示當(dāng)前和歷史損失細(xì)節(jié)的匹配情況;d為損失細(xì)節(jié)的字段總數(shù);
45、醫(yī)療報告或附屬證明信息層lm包括評估文件來源驗證參數(shù)pmr、文件結(jié)構(gòu)一致性參數(shù)pmf;
46、文件來源驗證參數(shù)pmr用于檢測附加證明文件的來源一致性;文件結(jié)構(gòu)一致性參數(shù)pmf用于衡量文件格式和結(jié)構(gòu)的相似性;
47、
48、
49、其中r為文件來源字段總數(shù);wi為第i個來源字段的權(quán)重,用于調(diào)節(jié)每個來源字段對整體來源一致性的影響;為第i個來源字段的匹配情況;
50、其中f為文件結(jié)構(gòu)字段總數(shù);wj為第j個結(jié)構(gòu)字段的權(quán)重;為第j個結(jié)構(gòu)字段的匹配情況。
51、在一個優(yōu)選的實施方式中,擬定身份特征信息層風(fēng)險評分為rs;身份特征信息層風(fēng)險評分rs基于身份特征信息層ls中的身份信息一致性參數(shù)psi和身份驗證頻率參數(shù)psf來衡量風(fēng)險;
52、rs=a·psi+b·psf
53、其中rs用于反映申請人身份信息的一致性與更新頻率是否存在異常;a和b是調(diào)節(jié)系數(shù),分別決定psi和psf對rs的影響權(quán)重;
54、擬定事件描述信息層風(fēng)險評分為re;事件描述信息層風(fēng)險評分re基于事件描述信息層le中的事件描述相似度參數(shù)pes和事件時間一致性參數(shù)pet來衡量風(fēng)險;
55、re=c·pes+d·pet
56、其中re用于反映事件描述的重復(fù)性與時間一致性;c和d是調(diào)節(jié)系數(shù);
57、擬定損失描述信息層風(fēng)險評分為rd;損失描述信息層風(fēng)險評分rd基于損失描述信息層ld中的損失金額浮動參數(shù)pdi和損失細(xì)節(jié)一致性參數(shù)pda來評估損失金額和細(xì)節(jié)描述的一致性;
58、rd=e·pdi+f·pda
59、其中rd用于反映損失金額的浮動情況和損失細(xì)節(jié)描述的一致性;e和f是調(diào)節(jié)系數(shù),決定損失金額浮動和損失細(xì)節(jié)一致性對rd的影響;
60、擬定醫(yī)療報告或附屬證明信息層風(fēng)險評分為rm;醫(yī)療報告或附屬證明信息層風(fēng)險評分rm基于醫(yī)療報告或附屬證明信息層lm中的文件來源驗證參數(shù)pmr、文件結(jié)構(gòu)一致性參數(shù)pmf來衡量風(fēng)險;
61、rm=g·pmr+h·pmf
62、其中rm用于反映證明文件來源和文件結(jié)構(gòu)是否存在異常;g和h是調(diào)節(jié)系數(shù),用于調(diào)節(jié)文件來源和結(jié)構(gòu)一致性對rm的影響;
63、基于四個信息層級的風(fēng)險評分rs、re、rd、rm進(jìn)行加權(quán)匯總,得出整體風(fēng)險評分r,以判斷是否觸發(fā)預(yù)警;
64、r=w1·rs+w2·re+w3·rd+w4·rm
65、其中r為整體風(fēng)險評分,用于判斷申請的綜合風(fēng)險;w1、w2、w3、w4分別是各層級的權(quán)重,用于平衡不同層級對總評分的貢獻(xiàn);超過預(yù)設(shè)的風(fēng)險閾值rthreshold時,系統(tǒng)會觸發(fā)預(yù)警,將該申請標(biāo)記為高風(fēng)險;
66、在計算出整體風(fēng)險評分r后,將r與系統(tǒng)預(yù)設(shè)的風(fēng)險閾值rthreshold進(jìn)行比較;若r>rthreshold,則觸發(fā)預(yù)警,標(biāo)記該申請為高風(fēng)險。
67、本發(fā)明的技術(shù)效果和優(yōu)點:
68、1、本發(fā)明通過多層級信息劃分與標(biāo)記,對保險理賠數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,針對性地分析每類信息的風(fēng)險特征,實現(xiàn)了多維度的精準(zhǔn)審核,有效提高了對異常數(shù)據(jù)的識別精度,減少了誤判率,從而提升保險數(shù)據(jù)審核的準(zhǔn)確性與效率;
69、2、該系統(tǒng)通過異常檢測模塊的設(shè)置,與歷史數(shù)據(jù)進(jìn)行比對,識別身份信息和事件描述中的異常情況,減少了人工審核壓力,使得審核流程更加便捷,同時降低了人為干預(yù)導(dǎo)致的偏差;
70、3、本方案通過計算各信息層級的風(fēng)險評分并綜合分析生成整體風(fēng)險評分,一旦評分超出預(yù)設(shè)閾值,系統(tǒng)即自動觸發(fā)預(yù)警;該機制為高風(fēng)險申請?zhí)峁┝藢崟r監(jiān)測手段,確保高風(fēng)險案件能夠及時進(jìn)入人工復(fù)核環(huán)節(jié),提高了風(fēng)險管理的主動性和響應(yīng)速度;
71、4、系統(tǒng)設(shè)計了反饋與模型優(yōu)化模塊,將人工審核結(jié)果反饋給模型進(jìn)行學(xué)習(xí)和優(yōu)化;通過不斷調(diào)整各參數(shù)權(quán)重和閾值,系統(tǒng)則可以動態(tài)適應(yīng)新的數(shù)據(jù)和風(fēng)險特征,逐步提升審核的準(zhǔn)確度和模型的優(yōu)化能力。