本發(fā)明涉及大氣環(huán)境監(jiān)測(cè),具體涉及一種基于區(qū)域與因子異質(zhì)性的臭氧濃度估算方法、介質(zhì)及設(shè)備。
背景技術(shù):
1、臭氧是大氣中的一種重要次生污染物,對(duì)環(huán)境和人類健康產(chǎn)生廣泛影響。盡管臭氧在平流層中具有保護(hù)地表生物免受紫外線傷害的作用,但在對(duì)流層中,尤其是近地表臭氧濃度升高,不僅會(huì)引發(fā)呼吸系統(tǒng)和心血管疾病,還對(duì)作物產(chǎn)量和生態(tài)系統(tǒng)造成顯著威脅。因此,對(duì)臭氧濃度分布的精確研究在污染防控、形成機(jī)制解析方面具有重要意義。
2、目前,許多研究基于物理化學(xué)模型(如wrf-chem)或統(tǒng)計(jì)學(xué)習(xí)模型(如隨機(jī)森林、支持向量機(jī)等)對(duì)臭氧濃度進(jìn)行預(yù)測(cè)。然而,傳統(tǒng)物理化學(xué)模型計(jì)算復(fù)雜,難以實(shí)時(shí)應(yīng)用于大范圍的高分辨率預(yù)測(cè);統(tǒng)計(jì)學(xué)習(xí)模型盡管預(yù)測(cè)效率較高,但往往難以有效捕捉臭氧濃度的區(qū)域異質(zhì)性和全局一致性。
3、不同區(qū)域的氣候條件和污染源特性顯著不同,導(dǎo)致臭氧濃度的時(shí)空分布規(guī)律復(fù)雜多變。例如,沿海地區(qū)由于工業(yè)排放和光化學(xué)反應(yīng)較強(qiáng),臭氧污染特征與內(nèi)陸山區(qū)有顯著差異。此外,氣象要素(如溫度、濕度、風(fēng)速和輻射)和前體物(如氮氧化物和揮發(fā)性有機(jī)物)的時(shí)空變化也進(jìn)一步加劇了臭氧濃度預(yù)測(cè)的復(fù)雜性。因此,如何兼顧區(qū)域差異性和全局一致性,構(gòu)建高精度、高分辨率的臭氧濃度預(yù)測(cè)模型,成為環(huán)境科學(xué)領(lǐng)域的重要研究課題。然而現(xiàn)有研究在全國范圍內(nèi)進(jìn)行逐小時(shí)臭氧濃度預(yù)測(cè)時(shí),通常忽略了不同區(qū)域的氣候特征和污染源結(jié)構(gòu),導(dǎo)致模型的預(yù)測(cè)精度和泛化能力受到限制。
4、綜上所述,急需設(shè)計(jì)一種基于區(qū)域劃分與因子篩選的臭氧濃度估算方法以解決現(xiàn)有技術(shù)中所存在的局部精準(zhǔn)性與全局一致性無法兼顧的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的在于提供一種基于區(qū)域與因子異質(zhì)性的臭氧濃度估算方法、介質(zhì)及設(shè)備,具體技術(shù)方案如下:
2、一種基于區(qū)域與因子異質(zhì)性的臭氧濃度估算方法,包括如下步驟:
3、步驟一、收集臭氧濃度的影響因子數(shù)據(jù)以及地面監(jiān)測(cè)站點(diǎn)數(shù)據(jù),并進(jìn)行預(yù)處理;
4、步驟二、建立臭氧濃度的最優(yōu)全局極端隨機(jī)樹模型,得到全域范圍內(nèi)的臭氧濃度結(jié)果數(shù)據(jù)和特征重要性矩陣數(shù)據(jù)集;
5、步驟三、基于特征重要性矩陣數(shù)據(jù)集構(gòu)建自組織映射模型,通過自組織映射模型訓(xùn)練使每個(gè)數(shù)據(jù)點(diǎn)映射到最優(yōu)網(wǎng)格節(jié)點(diǎn)以代表數(shù)據(jù)的相似性;基于每個(gè)網(wǎng)格節(jié)點(diǎn)周圍的區(qū)域及其聚集的數(shù)據(jù)點(diǎn)數(shù)量定義區(qū)域類別標(biāo)簽實(shí)現(xiàn)特征區(qū)域劃分;
6、步驟四、基于劃分的特征區(qū)域內(nèi)地面監(jiān)測(cè)站點(diǎn)數(shù)據(jù)與影響因子數(shù)據(jù),構(gòu)建區(qū)域極端隨機(jī)樹模型,并篩選出各個(gè)區(qū)域極端隨機(jī)樹模型解釋中最優(yōu)的五個(gè)氣象影響因子,所述氣象影響因子不包括臭氧柱濃度和靜態(tài)數(shù)據(jù),獲得最優(yōu)區(qū)域極端隨機(jī)樹模型;
7、步驟五、根據(jù)各區(qū)域極端隨機(jī)樹模型在環(huán)境空氣質(zhì)量監(jiān)測(cè)點(diǎn)的預(yù)測(cè)誤差分配權(quán)重,對(duì)各區(qū)域極端隨機(jī)樹模型進(jìn)行加權(quán)融合,最終得到臭氧濃度預(yù)測(cè)分布圖。
8、優(yōu)選的,所述臭氧濃度的影響因子數(shù)據(jù)包括氣象數(shù)據(jù)、人口密度數(shù)據(jù)、土地利用類型數(shù)據(jù)、dem數(shù)據(jù)、ndvi數(shù)據(jù)以及遙感數(shù)據(jù);所述氣象數(shù)據(jù)包括相對(duì)濕度、大氣邊界層高度、總降水量、地表氣壓、氣溫、露點(diǎn)溫度、土壤溫度、風(fēng)速、風(fēng)向、表面向下太陽輻射和表面凈太陽輻射氣象影響因子;所述遙感數(shù)據(jù)包括臭氧柱濃度數(shù)據(jù)、柱濃度數(shù)據(jù)和紅外波段數(shù)據(jù);
9、所述地面監(jiān)測(cè)站點(diǎn)數(shù)據(jù)為地基監(jiān)測(cè)站點(diǎn)臭氧濃度觀測(cè)值。
10、優(yōu)選的,對(duì)步驟一所收集的數(shù)據(jù)進(jìn)行預(yù)處理包括如下步驟:
11、采用插值法調(diào)整低分辨率氣象數(shù)據(jù),所述插值法使用立方卷積插值,公式如下:
12、;
13、其中:分別是插值點(diǎn)在三維空間中的坐標(biāo),分別是四個(gè)已知數(shù)據(jù)點(diǎn)在三維空間中的坐標(biāo),是目標(biāo)插值點(diǎn)的估計(jì)值,是已知數(shù)據(jù)點(diǎn)的值,是立方卷積插值的核函數(shù),表達(dá)式如下:
14、;
15、其中:是目標(biāo)點(diǎn)與已知點(diǎn)之間的歸一化距離,是控制插值平滑度的參數(shù);
16、采用重采樣法調(diào)整包括靜態(tài)變量數(shù)據(jù)和遙感數(shù)據(jù)的高分辨率數(shù)據(jù),所述重采樣法使用平均的統(tǒng)計(jì)方法來進(jìn)行,公式如下:
17、;
18、其中:是低空間分辨率數(shù)據(jù);是高空間分辨率數(shù)據(jù);是高空間分辨率數(shù)據(jù)中的像素坐標(biāo);是低空間分辨率數(shù)據(jù)中對(duì)應(yīng)的像素坐標(biāo);是每個(gè)低空間分辨率數(shù)據(jù)中像素涵蓋的高空間分辨率數(shù)據(jù)中像素?cái)?shù);
19、對(duì)土地利用類型數(shù)據(jù)進(jìn)行網(wǎng)格插值,并對(duì)年積日進(jìn)行正弦化處理以加入季節(jié)影響指數(shù);濃度、10m處u分量風(fēng)速、10m處v分量風(fēng)速及近地面溫度數(shù)據(jù)在時(shí)間網(wǎng)格上對(duì)上一時(shí)間步進(jìn)行采樣;u分量表示風(fēng)在東西方向的分量,v分量表示風(fēng)在南北方向的分量;
20、基于環(huán)境空氣質(zhì)量監(jiān)測(cè)點(diǎn)網(wǎng)格和實(shí)驗(yàn)區(qū)域網(wǎng)格,對(duì)多影響因子數(shù)據(jù)進(jìn)行時(shí)空網(wǎng)格匹配對(duì)齊;篩選去除異常值或缺失值,整合所有特征因素與臭氧濃度觀測(cè)值,劃分訓(xùn)練集與測(cè)試集。
21、優(yōu)選的,所述步驟二具體包括:
22、將預(yù)處理的數(shù)據(jù)輸入極端隨機(jī)樹進(jìn)行訓(xùn)練,得到最優(yōu)全局極端隨機(jī)樹模型;
23、通過平均多棵樹的預(yù)測(cè)結(jié)果得到全域范圍內(nèi)的臭氧濃度結(jié)果數(shù)據(jù);
24、通過網(wǎng)格搜索對(duì)極端隨機(jī)樹所有超參數(shù)組合進(jìn)行訓(xùn)練,采用交叉驗(yàn)證對(duì)各超參數(shù)組合進(jìn)行性能評(píng)估,綜合各項(xiàng)指標(biāo)輸出最低綜合誤差cverror的最優(yōu)超參數(shù)組合模型,基于最優(yōu)超參數(shù)組合模型得到特征重要性矩陣數(shù)據(jù)集;
25、性能評(píng)估的計(jì)算公式如下:
26、;
27、其中,是交叉驗(yàn)證的折數(shù),是損失函數(shù),是第次折疊中的真實(shí)監(jiān)測(cè)值,是第次折疊中使用當(dāng)前參數(shù)組合訓(xùn)練得到的模型在第個(gè)樣本上的預(yù)測(cè)值,此處使用均方誤差作為一般損失函數(shù),計(jì)算公式如下:
28、;
29、其中,是驗(yàn)證集樣本數(shù)量。
30、優(yōu)選的,所述步驟二中的全局極端隨機(jī)樹模型如下:
31、;
32、;
33、其中:表示監(jiān)測(cè)站點(diǎn)的臭氧濃度,表示建立的極端隨機(jī)樹模型,表示氣象數(shù)據(jù);表示地形數(shù)據(jù);表示土地利用類型數(shù)據(jù);表示歸一化植被指數(shù)數(shù)據(jù);表示人口密度數(shù)據(jù);表示tropomi衛(wèi)星提供的臭氧和柱濃度數(shù)據(jù);表示himawari衛(wèi)星提供的紅外波段數(shù)據(jù);表示對(duì)應(yīng)的觀測(cè)時(shí)刻正弦化數(shù)據(jù);表示第棵決策樹;表示第棵決策樹的訓(xùn)練數(shù)據(jù)集;表示決策樹的數(shù)量;表示樹的最大深度,表示不限制樹的最大深度;表示決策樹的每個(gè)節(jié)點(diǎn)分裂時(shí)的最小樣本數(shù);表示葉節(jié)點(diǎn)的最小樣本數(shù);表示在每個(gè)節(jié)點(diǎn)上選擇的最大特征數(shù),表示使用所有特征;表示是否使用自助法來生成每棵樹的訓(xùn)練數(shù)據(jù);表示袋外預(yù)測(cè)功能;表示袋外自變量重要性估計(jì)功能;表示方法類型;表示功能開啟;表示方法類型為回歸模型。
34、優(yōu)選的,所述步驟三中的特征區(qū)域劃分的方法包括:
35、構(gòu)建自組織映射模型將重要性矩陣數(shù)據(jù)集在保持?jǐn)?shù)據(jù)拓?fù)浣Y(jié)構(gòu)的前提下映射到一個(gè)低維的二維網(wǎng)格空間上;自組織映射模型訓(xùn)練后每個(gè)點(diǎn)都會(huì)映射到自組織映射模型的網(wǎng)格中的最優(yōu)網(wǎng)格節(jié)點(diǎn)上,以代表數(shù)據(jù)的相似性,在臭氧濃度變化特征和氣象因素相近的區(qū)域會(huì)被映射到相同或鄰近的網(wǎng)格單元,在自組織映射模型的訓(xùn)練過程中,最優(yōu)匹配單元通過以下公式來確定:
36、;
37、其中,表示最優(yōu)匹配單元bmu的權(quán)重向量,表示輸入數(shù)據(jù),表示?自組織映射網(wǎng)格中第個(gè)神經(jīng)元的權(quán)重向量,是輸入數(shù)據(jù)與神經(jīng)元權(quán)重之間的歐幾里得距離;訓(xùn)練過程中,自組織映射模型通過選擇距離輸入數(shù)據(jù)最小的神經(jīng)元即最優(yōu)匹配單元來更新該神經(jīng)元及其鄰域神經(jīng)元的權(quán)重;
38、基于每個(gè)神經(jīng)元周圍的區(qū)域以及其聚集的數(shù)據(jù)點(diǎn)數(shù)量定義一個(gè)區(qū)域類別的標(biāo)簽,表明該標(biāo)簽下的數(shù)據(jù)點(diǎn)有相同的臭氧污染特征,基于各個(gè)標(biāo)簽劃分成各個(gè)特征區(qū)域。
39、優(yōu)選的,所述步驟五中最優(yōu)的氣象影響因子獲得方法包括:
40、計(jì)算袋外自變量重要性估計(jì)值,計(jì)算公式如下:
41、;
42、其中:為其他自變量進(jìn)行分裂得到一個(gè)基準(zhǔn)袋外樣本預(yù)測(cè)誤差;為自變量重要性估計(jì)值;為自變量進(jìn)行分裂時(shí)的袋外樣本預(yù)測(cè)誤差;
43、袋外樣本預(yù)測(cè)誤差的計(jì)算表達(dá)式為:,表示第個(gè)樣本的真實(shí)標(biāo)簽,表示第個(gè)樣本的特征向量,表示使用其他樣本訓(xùn)練得到的隨機(jī)森林模型在第個(gè)樣本上的預(yù)測(cè)結(jié)果;
44、根據(jù)重要性估計(jì)值,得到前五位最優(yōu)氣象影響因子。
45、優(yōu)選的,所述步驟四中對(duì)各區(qū)域極端隨機(jī)樹模型的加權(quán)融合的過程包括:
46、根據(jù)各區(qū)域極端隨機(jī)樹模型在監(jiān)測(cè)站點(diǎn)的誤差表現(xiàn),為它們分配不同的權(quán)重;具體而言,針對(duì)每個(gè)區(qū)域,首先評(píng)估其在區(qū)域內(nèi)站點(diǎn)上的預(yù)測(cè)誤差:
47、;
48、其中,為區(qū)域極端隨機(jī)樹模型在監(jiān)測(cè)站點(diǎn)的預(yù)測(cè)誤差,為監(jiān)測(cè)站點(diǎn)測(cè)量值,為模型預(yù)測(cè)值,為該區(qū)域的樣本數(shù)量;根據(jù)誤差大小,為誤差較小的模型賦予更高的權(quán)重,確保融合后的模型更具精度;
49、;
50、其中,表示第個(gè)區(qū)域極端隨機(jī)樹模型的權(quán)重,表示對(duì)所有區(qū)域的預(yù)測(cè)誤差的倒數(shù)求和。
51、本發(fā)明還提供一種可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序指令,當(dāng)所述計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的基于區(qū)域與因子異質(zhì)性的臭氧濃度估算方法。
52、本發(fā)明還提供一種電子設(shè)備,包括:至少一個(gè)處理器、至少一個(gè)存儲(chǔ)器以及存儲(chǔ)在所述存儲(chǔ)器中的計(jì)算機(jī)程序指令,當(dāng)所述計(jì)算機(jī)程序指令被所述處理器執(zhí)行如上所述的基于區(qū)域與因子異質(zhì)性的臭氧濃度估算方法。
53、應(yīng)用本發(fā)明的技術(shù)方案,具有以下有益效果:
54、一種基于區(qū)域與因子異質(zhì)性的臭氧濃度估算方法,包括如下步驟:收集臭氧濃度的影響因子數(shù)據(jù)以及地面監(jiān)測(cè)站點(diǎn)數(shù)據(jù),并進(jìn)行預(yù)處理;建立臭氧濃度的最優(yōu)全局極端隨機(jī)樹模型,得到全域范圍內(nèi)的臭氧濃度結(jié)果數(shù)據(jù)和特征重要性矩陣數(shù)據(jù)集;基于特征重要性矩陣數(shù)據(jù)集構(gòu)建自組織映射模型,通過自組織映射模型訓(xùn)練使每個(gè)數(shù)據(jù)點(diǎn)映射到最優(yōu)網(wǎng)格節(jié)點(diǎn)以代表數(shù)據(jù)的相似性;基于每個(gè)網(wǎng)格節(jié)點(diǎn)周圍的區(qū)域及其聚集的數(shù)據(jù)點(diǎn)數(shù)量定義區(qū)域類別標(biāo)簽實(shí)現(xiàn)特征區(qū)域劃分;基于劃分的特征區(qū)域內(nèi)地面監(jiān)測(cè)站點(diǎn)數(shù)據(jù)與影響因子數(shù)據(jù),構(gòu)建區(qū)域極端隨機(jī)樹模型,并篩選出各個(gè)區(qū)域極端隨機(jī)樹模型解釋中最優(yōu)的五個(gè)氣象影響因子,所述氣象影響因子不包括臭氧柱濃度和靜態(tài)數(shù)據(jù),獲得最優(yōu)區(qū)域極端隨機(jī)樹模型;根據(jù)各區(qū)域極端隨機(jī)樹模型在環(huán)境空氣質(zhì)量監(jiān)測(cè)點(diǎn)的預(yù)測(cè)誤差分配權(quán)重,對(duì)各區(qū)域極端隨機(jī)樹模型進(jìn)行加權(quán)融合,最終得到臭氧濃度預(yù)測(cè)分布圖。本發(fā)明方法利用極端隨機(jī)樹建立臭氧濃度的最優(yōu)全局極端隨機(jī)樹模型并利用網(wǎng)格搜索尋求最優(yōu)超參數(shù)組合,基于全局模型的各特征重要性矩陣通過?自組織映射聚類實(shí)現(xiàn)區(qū)域劃分;針對(duì)每個(gè)區(qū)域不斷迭代篩選核心氣象影響因子獲得最優(yōu)區(qū)域極端隨機(jī)樹模型;通過加權(quán)融合區(qū)域極端隨機(jī)樹模型和全局模型的濃度模擬結(jié)果,生成大跨度范圍的臭氧濃度數(shù)據(jù)集。能夠在兼顧區(qū)域特異性和全局一致性的同時(shí),顯著提高濃度模擬精度,快速高效地獲取高時(shí)空分辨率的臭氧濃度數(shù)據(jù)。構(gòu)建的數(shù)據(jù)集不僅能夠精準(zhǔn)反映大跨度范圍內(nèi)臭氧濃度的時(shí)空變化規(guī)律,還為實(shí)時(shí)監(jiān)測(cè)、空氣質(zhì)量評(píng)估及污染控制策略提供了可靠的數(shù)據(jù)支持。
55、除了上面所描述的目的、特征和優(yōu)點(diǎn)之外,本發(fā)明還有其它的目的、特征和優(yōu)點(diǎn)。下面將參照?qǐng)D,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。