本發(fā)明涉及農(nóng)業(yè)科技及數(shù)據(jù)分析,尤其是涉及一種基于文本大數(shù)據(jù)和狀態(tài)空間的transformer農(nóng)業(yè)病蟲(chóng)害智能預(yù)測(cè)模型。
背景技術(shù):
1、在現(xiàn)代農(nóng)業(yè)生產(chǎn)中,農(nóng)作物病蟲(chóng)害的監(jiān)測(cè)與防治是關(guān)鍵問(wèn)題之一,其直接關(guān)系到農(nóng)業(yè)生產(chǎn)的效率和作物的產(chǎn)量與質(zhì)量。隨著信息技術(shù)和生物技術(shù)的發(fā)展,農(nóng)業(yè)病蟲(chóng)害的預(yù)測(cè)與控制已經(jīng)由傳統(tǒng)的人工識(shí)別和經(jīng)驗(yàn)處理逐步向更加科學(xué)化、精確化和自動(dòng)化方向發(fā)展。盡管如此,現(xiàn)有技術(shù)在實(shí)際應(yīng)用中仍面臨許多限制和挑戰(zhàn)。
2、傳統(tǒng)的病蟲(chóng)害監(jiān)測(cè)方法主要依靠農(nóng)業(yè)工作者的經(jīng)驗(yàn)和定期的田間檢查。這些方法雖然在一定程度上能夠控制病蟲(chóng)害的蔓延,但存在效率低下、耗時(shí)耗力、準(zhǔn)確性不高等問(wèn)題。農(nóng)業(yè)工作者需要在大面積的農(nóng)田中進(jìn)行逐一檢查,不僅效率低下,而且很難做到全面覆蓋,易于遺漏或誤判。此外,這種依賴人工的方法受限于專業(yè)知識(shí)和經(jīng)驗(yàn),對(duì)新手或非專業(yè)人士尤為不友好。雖然現(xiàn)代農(nóng)業(yè)中已經(jīng)開(kāi)始應(yīng)用像無(wú)人機(jī)、衛(wèi)星圖像和自動(dòng)化監(jiān)測(cè)設(shè)備等高科技產(chǎn)品來(lái)識(shí)別和預(yù)測(cè)病蟲(chóng)害,這些技術(shù)提高了監(jiān)測(cè)的精度和范圍,但其高昂的設(shè)備成本和操作復(fù)雜性限制了普通農(nóng)戶的使用。例如,無(wú)人機(jī)和遙感技術(shù)雖然能夠快速覆蓋大片農(nóng)田并提供實(shí)時(shí)數(shù)據(jù),但需要專業(yè)的操作和維護(hù),以及處理高分辨率圖像所需的高性能計(jì)算資源。即使在可以獲取大量數(shù)據(jù)的情況下,如何有效地處理和利用這些數(shù)據(jù)仍是一個(gè)挑戰(zhàn)。現(xiàn)有的農(nóng)業(yè)決策支持系統(tǒng)往往依賴于簡(jiǎn)單的數(shù)據(jù)處理模型,不能充分挖掘數(shù)據(jù)中的復(fù)雜模式和趨勢(shì),這在一定程度上降低了預(yù)測(cè)的準(zhǔn)確性和可靠性。此外,現(xiàn)有模型往往無(wú)法實(shí)時(shí)更新,無(wú)法適應(yīng)快速變化的環(huán)境條件和病蟲(chóng)害發(fā)展?fàn)顟B(tài)。這些模型往往對(duì)數(shù)據(jù)的質(zhì)量和標(biāo)記的準(zhǔn)確性非常敏感,數(shù)據(jù)的微小變動(dòng)或誤差都可能導(dǎo)致預(yù)測(cè)結(jié)果的大幅偏差。
3、隨著農(nóng)業(yè)生產(chǎn)向高效化和精確化發(fā)展,對(duì)病蟲(chóng)害監(jiān)測(cè)系統(tǒng)能夠進(jìn)行實(shí)時(shí)動(dòng)態(tài)預(yù)測(cè)的需求日益增加。然而,現(xiàn)有技術(shù)大多只能提供靜態(tài)預(yù)測(cè),難以實(shí)現(xiàn)對(duì)病蟲(chóng)害發(fā)展動(dòng)態(tài)的實(shí)時(shí)跟蹤和預(yù)測(cè),這限制了農(nóng)業(yè)管理的響應(yīng)速度和時(shí)效性。
4、綜上所述,現(xiàn)有技術(shù)雖然在農(nóng)業(yè)病蟲(chóng)害監(jiān)測(cè)和管理方面取得了一定的進(jìn)步,但仍存在效率低、成本高、準(zhǔn)確性和泛化能力有限以及缺乏實(shí)時(shí)動(dòng)態(tài)預(yù)測(cè)能力等問(wèn)題。因此,有必要提出一種新的基于狀態(tài)空間的transformer模型,旨在通過(guò)深度學(xué)習(xí)和狀態(tài)空間理論的結(jié)合,實(shí)現(xiàn)對(duì)農(nóng)作物病蟲(chóng)害的高效、低成本、高準(zhǔn)確性和實(shí)時(shí)動(dòng)態(tài)預(yù)測(cè),以滿足現(xiàn)代農(nóng)業(yè)生產(chǎn)的高標(biāo)準(zhǔn)需求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供基于文本大數(shù)據(jù)和狀態(tài)空間的transformer農(nóng)業(yè)病蟲(chóng)害智能預(yù)測(cè)模型,以解決上述背景技術(shù)中存在的問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了基于文本大數(shù)據(jù)和狀態(tài)空間的transformer農(nóng)業(yè)病蟲(chóng)害智能預(yù)測(cè)模型,包括以下步驟:
3、s1、搜集大量作物病害圖像數(shù)據(jù),對(duì)搜集到的圖像數(shù)據(jù)進(jìn)行標(biāo)注;
4、s2、對(duì)標(biāo)注后的數(shù)據(jù)進(jìn)行預(yù)處理;
5、s3、對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行信息提取,而后構(gòu)建知識(shí)圖譜;
6、s4、設(shè)置模型的狀態(tài)空間轉(zhuǎn)移方程、基于狀態(tài)空間的transformer模型和狀態(tài)空間損失函數(shù);
7、s5、將s3處理后的數(shù)據(jù)作為模型的輸入,經(jīng)過(guò)模型處理,輸出令牌嵌入,用于預(yù)測(cè)未來(lái)狀態(tài)。
8、優(yōu)選的,s1中利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)進(jìn)行圖像數(shù)據(jù)的收集,以確保數(shù)據(jù)的準(zhǔn)確性和一致性,數(shù)據(jù)標(biāo)注采用開(kāi)源標(biāo)注工具labelimg進(jìn)行標(biāo)注,其作為一種圖像化的圖像標(biāo)注工具,具有良好的用戶界面和簡(jiǎn)單的操作,能夠很方便地在圖像上繪制邊界框并提供相應(yīng)的標(biāo)簽,從而實(shí)現(xiàn)對(duì)圖像中目標(biāo)物體的精確標(biāo)注。且最新版的labelimg在功能、性能和穩(wěn)定性方面均有所優(yōu)化,能夠更好地滿足圖像標(biāo)注需求。具體包括:
9、為了保證標(biāo)注的質(zhì)量,首先,建立一個(gè)標(biāo)注指南,其包含各種數(shù)據(jù)類型的標(biāo)注標(biāo)準(zhǔn)和程序;
10、其次,為了保證標(biāo)注的一致性和準(zhǔn)確性,采用雙重注釋策略,即包括:初步標(biāo)注,通過(guò)若干名注釋者獨(dú)立標(biāo)注,且若干名注釋者定期進(jìn)行交叉檢查與討論,以解決標(biāo)注過(guò)程中出現(xiàn)的復(fù)雜問(wèn)題,規(guī)范標(biāo)注標(biāo)準(zhǔn);標(biāo)注審查,由審查者對(duì)注釋者的標(biāo)注進(jìn)行驗(yàn)證和仲裁。為進(jìn)一步保證數(shù)據(jù)標(biāo)注質(zhì)量,建立全面的質(zhì)量控制機(jī)制,包括定期對(duì)注釋者進(jìn)行培訓(xùn),使其熟悉注釋準(zhǔn)則和標(biāo)準(zhǔn),提高注釋的準(zhǔn)確性和一致性,定期檢查注釋數(shù)據(jù),以評(píng)估注釋的質(zhì)量,并根據(jù)檢查結(jié)果調(diào)整注釋指南和程序,建立反饋機(jī)制,鼓勵(lì)注釋者在標(biāo)注過(guò)程中提出的問(wèn)題和建議,持續(xù)優(yōu)化標(biāo)注流程。
11、優(yōu)選的,預(yù)處理的任務(wù)是對(duì)數(shù)據(jù)進(jìn)行清理和格式化,以提高后續(xù)任務(wù)的準(zhǔn)確性和效率,s2中的數(shù)據(jù)預(yù)處理具體包括:
12、對(duì)于沒(méi)有明確界限的圖像分割更加復(fù)雜,并且依賴于特定的分割算法來(lái)識(shí)別詞界,分割公式為:
13、w=segment(t);
14、其中,t表示s1處理后的數(shù)據(jù)原圖;w表示分割結(jié)果;segment(·)表示分割函數(shù);
15、清理涉及從圖像中刪除噪音和不必要的信息清理后的圖像更加標(biāo)準(zhǔn)化,有利于模型處理,公式為:
16、t′=clean(t);
17、其中,t'為清理后的圖像;clean(·)為清理操作;
18、規(guī)范化,公式為:
19、t″=normalize(t′);
20、其中,t”為規(guī)范化圖像;normalize(·)為歸一化函數(shù)。
21、優(yōu)選的,s3中的信息提取為從預(yù)處理后的數(shù)據(jù)中識(shí)別和提取實(shí)體、屬性和關(guān)系,提取實(shí)體用于識(shí)別文本中的命名實(shí)體,關(guān)系提取決定實(shí)體之間的語(yǔ)義聯(lián)系,對(duì)于構(gòu)建知識(shí)圖譜至關(guān)重要,實(shí)體提取可識(shí)別文本中的命名實(shí)體,例如人名、地名和組織名稱;關(guān)系提取決定了實(shí)體之間的語(yǔ)義聯(lián)系;屬性提取側(cè)重于有關(guān)實(shí)體的描述性信息;實(shí)體與關(guān)系的提取表示為:
22、unified?knowledge=
23、knowledge?fusion(extracted?information);
24、利用tf-idf和wordvec進(jìn)行知識(shí)圖譜的構(gòu)建,可以顯著提高知識(shí)圖譜的信息檢索能力和語(yǔ)義解析效率;tf-idf通過(guò)將單詞的術(shù)語(yǔ)頻率tf乘以反文獻(xiàn)頻率idf來(lái)評(píng)估單詞的重要性,術(shù)語(yǔ)頻率tf是單詞在文檔中出現(xiàn)的次數(shù)除以該文檔中的單詞總數(shù),而反文檔頻率idf是文檔總數(shù)除以包含該單詞的文檔數(shù)量的對(duì)數(shù);wordvec通過(guò)訓(xùn)練將單詞轉(zhuǎn)換為向量形式,捕獲單詞之間的上下文關(guān)系,通過(guò)skip-gram模型預(yù)測(cè)上下文和cbow模型從上下文中預(yù)測(cè)當(dāng)前單詞實(shí)現(xiàn)。
25、優(yōu)選的,s4中通過(guò)引入狀態(tài)空間轉(zhuǎn)移方程,以增強(qiáng)復(fù)雜系統(tǒng)的預(yù)測(cè)能力,表示為:
26、
27、yt=cht+dxt;
28、其中,ht表示時(shí)間t的隱藏狀態(tài);xt表示時(shí)間t的輸入;yt表示模型的輸出;和δb分別表示狀態(tài)轉(zhuǎn)換矩陣和輸入控制矩陣的更新;c和d分別表示輸出矩陣和直接傳輸矩陣;
29、使用指數(shù)映射來(lái)更新?tīng)顟B(tài)轉(zhuǎn)換矩陣,如下:
30、
31、采用狀態(tài)空間轉(zhuǎn)移方程設(shè)計(jì)的基本原理在于它能夠模擬和預(yù)測(cè)實(shí)際復(fù)雜系統(tǒng)中的動(dòng)態(tài)變化。通過(guò)狀態(tài)空間模型,可以更準(zhǔn)確地捕獲系統(tǒng)狀態(tài)隨時(shí)間的變化,這對(duì)于基于時(shí)間序列數(shù)據(jù)的復(fù)雜系統(tǒng)預(yù)測(cè)至關(guān)重要。
32、優(yōu)選的,s4中的基于狀態(tài)空間的transformer模型,具體包括:
33、塊,由若干個(gè)塊組成,每個(gè)塊均為transformer模型中層的變體,其集成了狀態(tài)空間模型的特征,且每個(gè)塊均包含一個(gè)自注意力機(jī)制和一個(gè)前饋神經(jīng)網(wǎng)絡(luò),且還嵌入一個(gè)狀態(tài)空間用于表示層來(lái)模擬輸入數(shù)據(jù)的時(shí)間演化特征;
34、塊間連接,塊之間通過(guò)殘差連接和層歸一化連接,殘差連接允許信息直接從一個(gè)塊流向另一個(gè)塊,而層歸一化有助于在訓(xùn)練期間保持穩(wěn)定性。
35、優(yōu)選的,s4中的狀態(tài)空間損失函數(shù)為針對(duì)狀態(tài)空間模型與transformer架構(gòu)集成在一起的新型預(yù)測(cè)模型而設(shè)計(jì)的,它與傳統(tǒng)的transformer模型損失函數(shù)有很大不同,主要在于同時(shí)考慮了時(shí)間序列的動(dòng)態(tài)特性和預(yù)測(cè)的準(zhǔn)確性。狀態(tài)空間損失函數(shù)不僅測(cè)量預(yù)測(cè)輸出與真實(shí)值之間的差異,還考慮模型狀態(tài)轉(zhuǎn)換的平滑性和連貫性,其數(shù)學(xué)表達(dá)式為:
36、l(θ)=λ1lpredict(θ)+λ2lsmooth(θ);
37、其中,lpredict(θ)為傳統(tǒng)預(yù)測(cè)損失分量;通常使用均方誤差(mse)來(lái)量化模型輸出與真實(shí)值之間的差異,表示為:
38、
39、其中,n為數(shù)據(jù)點(diǎn)的總數(shù);yt為時(shí)間t的真實(shí)值;為模型的預(yù)測(cè)輸出;
40、lsmooth(θ)為狀態(tài)空間模型的平滑度損失分量,用于保證狀態(tài)轉(zhuǎn)移的連續(xù)性和合理性,一個(gè)典型的選擇是將狀態(tài)轉(zhuǎn)換矩陣變化的弗羅貝紐斯(frobenius)范數(shù)作為平滑項(xiàng),如下:
41、
42、其中,δa表示狀態(tài)轉(zhuǎn)換矩陣嫩的變化;||·||f表示弗羅貝紐斯范數(shù);λ1和λ2表示用于平衡預(yù)測(cè)損失分量和平滑度損失分量對(duì)總損失的貢獻(xiàn)的加權(quán)參數(shù),這些參數(shù)的選擇取決于特定的任務(wù)和數(shù)據(jù)特征,需要通過(guò)交叉驗(yàn)證或其他模型選擇技術(shù)來(lái)確定。狀態(tài)空間損失函數(shù)的設(shè)計(jì)不僅考慮了預(yù)測(cè)精度的重要性,還考慮了復(fù)雜系統(tǒng)預(yù)測(cè)任務(wù)中系統(tǒng)狀態(tài)隨時(shí)間推移的平滑演化的重要性。狀態(tài)空間損失函數(shù)鼓勵(lì)模型通過(guò)術(shù)語(yǔ),捕獲系統(tǒng)的動(dòng)態(tài)特性。此外,在模型訓(xùn)練期間僅依賴預(yù)測(cè)損失通常會(huì)導(dǎo)致過(guò)度擬合。引入平滑性損失,狀態(tài)空間損失函數(shù)增強(qiáng)了模型的泛化能力,使其在看不見(jiàn)的數(shù)據(jù)上更加魯棒。在實(shí)際應(yīng)用中,預(yù)測(cè)精度與狀態(tài)轉(zhuǎn)換的平滑度之間可能存在沖突。通過(guò)調(diào)整λ1和λ2,狀態(tài)空間損失函數(shù)允許根據(jù)實(shí)際需要在兩者之間找到最佳平衡。
43、優(yōu)選的,s5具體包括:
44、將處理得到的文本數(shù)據(jù)作為輸入,通過(guò)嵌入層(稱為輸入令牌嵌入)將文本數(shù)據(jù)轉(zhuǎn)換為向量表示,這些嵌入旨在捕獲文本中每個(gè)單詞或字符的語(yǔ)義信息;模型的每個(gè)模塊中均引入了學(xué)習(xí)的上下文id來(lái)識(shí)別和學(xué)習(xí)不同的上下文狀態(tài),使模型能夠區(qū)分和處理來(lái)自各種上下文的信息;且每個(gè)模塊均包含線性層(用于生成鍵、值和查詢,稱為kvq)和交叉注意力機(jī)制,用于根據(jù)當(dāng)前輸入和先前學(xué)習(xí)的上下文狀態(tài)集成信息;最后,模型輸入令牌嵌入,用于預(yù)測(cè)未來(lái)狀態(tài),其中,令牌嵌入轉(zhuǎn)換表達(dá)式為:
45、e=embed(x);
46、其中,x為輸入文本數(shù)據(jù);e為標(biāo)記嵌入;
47、交叉注意力機(jī)制表達(dá)式為:
48、
49、狀態(tài)空間模型積分表達(dá)式為:
50、st+1=f·st+g·a+h;
51、其中,st和st+1分別表示當(dāng)前和下一個(gè)時(shí)間步長(zhǎng)系統(tǒng)狀態(tài);f、g、h為狀態(tài)空間模型參數(shù);a為交叉注意力的輸出。
52、因此,本發(fā)明采用上述一種基于文本大數(shù)據(jù)和狀態(tài)空間的transformer農(nóng)業(yè)病蟲(chóng)害智能預(yù)測(cè)模型,具有以下有益效果:
53、(1)降低病蟲(chóng)害監(jiān)測(cè)成本和操作復(fù)雜性,利用現(xiàn)有的農(nóng)業(yè)數(shù)據(jù)和簡(jiǎn)易的傳感設(shè)備,降低了技術(shù)使用的成本和復(fù)雜性,使其更適合普通農(nóng)戶使用;
54、(2)提高了預(yù)測(cè)的準(zhǔn)確性和實(shí)時(shí)性,通過(guò)提出結(jié)合狀態(tài)空間理論和transformer架構(gòu)的模型,能夠更精確地模擬和預(yù)測(cè)病蟲(chóng)害的發(fā)展趨勢(shì),即便在數(shù)據(jù)量巨大且變化快速的情況下也能保持高效的處理速度和高準(zhǔn)確性;
55、(3)實(shí)時(shí)分析數(shù)據(jù),預(yù)測(cè)病蟲(chóng)害發(fā)生的可能性和時(shí)機(jī),實(shí)現(xiàn)從被動(dòng)響應(yīng)向主動(dòng)預(yù)防的轉(zhuǎn)變,為農(nóng)戶提供客戶的決策支持,大大減少病蟲(chóng)害帶來(lái)的損失。
56、下面通過(guò)附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。