最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

預測模型構(gòu)建方法和設(shè)備以及實時預測方法和設(shè)備與流程

文檔序號:12064433閱讀:545來源:國知局
預測模型構(gòu)建方法和設(shè)備以及實時預測方法和設(shè)備與流程

本公開涉及預測技術(shù)領(lǐng)域,更特別地涉及一種用于構(gòu)建預測模型的方法和設(shè)備以及用于執(zhí)行實時預測的方法和設(shè)備。



背景技術(shù):

預測技術(shù)是當下的一個熱點研究問題。預測技術(shù)可以在各個領(lǐng)域得到廣泛應(yīng)用,諸如空氣質(zhì)量預測、氣候預測、交通流量預測等。根據(jù)數(shù)據(jù)的特點和預測的問題的不同,已經(jīng)提出了各種不同的預測模型,例如基于參數(shù)的時間序列預測、神經(jīng)網(wǎng)絡(luò)、回歸分析等。

傳統(tǒng)的預測模型通常采用全局建模的方式,即利用一個統(tǒng)一的模型涵蓋各種預測過程,并對自變量與因變量之間的關(guān)系進行建模。然而,數(shù)據(jù)中變量間的關(guān)聯(lián)模式隨著時間、空間的不同通常有著較大變化,而這類統(tǒng)一的模型難以涵蓋數(shù)據(jù)中的所有情況,尤其是數(shù)據(jù)中的稀有事件。而這些事件往往會是預測中需要特別關(guān)注的重點,例如空氣質(zhì)量預測中的重度污染預測、交通流中的事故預測等。

傳統(tǒng)的預測方法,如神經(jīng)網(wǎng)絡(luò)、回歸分析等方法,通常首先采集一些真實數(shù)據(jù)作為樣本,以用于訓練模型,然后用訓練好的模型進行預測。這樣預測的準確度非常依賴于訓練時所用樣本數(shù)據(jù)的數(shù)量和質(zhì)量。而且待預測的數(shù)據(jù)與訓練樣本特征差異較大時,其預測結(jié)果往往是不準確的。

多模型預測是傳統(tǒng)的空氣質(zhì)量預測多采用的預測方式,這種預測方式已經(jīng)被證明是有效的。例如,在US6535817B1中公開了一種基于多回歸模型的氣候預測方式。根據(jù)該專利中提出的技術(shù)方案,在訓練過程中,首先針對歷史氣候數(shù)據(jù)執(zhí)行預處理,以使其滿足模型的輸入和輸出形式;接著隨機地將數(shù)據(jù)劃分為N個分組;然后,針對這N個分組進行訓練以得到相應(yīng)的N個預測模型;隨后,基于歷史氣候數(shù)據(jù)針對這N個相應(yīng)的預測模型進行評估,以便獲得他們各自的歷史性能。而在預測過程中,針對實時數(shù)據(jù)采用N個預測模型進行預測,以得到N個預測結(jié)果;然后,基于各個預測模型的歷史性能對這N個預測結(jié)果進行加權(quán)平均;最后,將得到的平均結(jié)果作為最終預測結(jié)果進行存儲。

在上述的美國專利所提出的技術(shù)中,采用了歷史性能作為模型性能的度量。然而,實時預測是一個相當復雜的問題,例如對于空氣質(zhì)量而言,它不但受到最近歷史空氣質(zhì)量因素和交通因素的影響,而且還受到實時氣象因素的影響。因而,包括上述專利在內(nèi)的現(xiàn)有技術(shù)中基于多模型的預測方法目前對于實時預測而言有效性仍然不太理想,其預測結(jié)果的準確性和可靠性依然較低。

為此,在現(xiàn)有技術(shù)中存在針對實時預測技術(shù)的方案進行改進的需要。



技術(shù)實現(xiàn)要素:

有鑒于此,本公開公開了一種用于構(gòu)建預測模型的方法和設(shè)備以及用于執(zhí)行實時預測的方法和設(shè)備,以至少部分上消除或者緩解上述問題。

根據(jù)本公開的第一方面,提供了一種用于構(gòu)建預測模型的方法。該方法包括:識別待訓練數(shù)據(jù)中的多種不同的關(guān)聯(lián)模式,其中所述多種不同的關(guān)聯(lián)模式描述所述待訓練數(shù)據(jù)中的影響因素與目標數(shù)據(jù)之間的多種不同的關(guān)聯(lián)關(guān)系;利用與所述多種不同的關(guān)聯(lián)模式相對應(yīng)的多組數(shù)據(jù)分別進行訓練,以得到適用于所述多種不同的關(guān)聯(lián)模式的多個子預測模型;以及根據(jù)所述待訓練數(shù)據(jù)構(gòu)建所述多種不同的關(guān)聯(lián)模式之間的關(guān)聯(lián)模式轉(zhuǎn)移模型。所述關(guān)聯(lián)模式轉(zhuǎn)移模型用于在預測過程中確定所述多個不同的子預測模型與待預測數(shù)據(jù)之間的匹配度。

在根據(jù)本公開的第一方面的實施方式中,所述識別待訓練數(shù)據(jù)中的多種不同的關(guān)聯(lián)模式包括:將所述待訓練數(shù)據(jù)按照時間劃分為多個數(shù)據(jù)分段;學習所述多個數(shù)據(jù)分段中的各個數(shù)據(jù)分段的關(guān)聯(lián)模式;以及通過合并相似的關(guān)聯(lián)模式和對應(yīng)的數(shù)據(jù)分段來確定所述多種不同的關(guān)聯(lián)模式。

在根據(jù)本公開的第一方面的另一實施方式中,所述確定所述多種不同的關(guān)聯(lián)模式包括:基于層次聚類對所述各個數(shù)據(jù)分段的關(guān)聯(lián)模式進行聚類。

在根據(jù)本公開的第一方面的另一實施方式中,所述關(guān)聯(lián)模式轉(zhuǎn)移模型描述所述多種不同的關(guān)聯(lián)模式之間的模式轉(zhuǎn)移的概率。

在根據(jù)本公開的第一方面的另一實施方式中,根據(jù)所述待訓練數(shù)據(jù)構(gòu)建所述多種不同的關(guān)聯(lián)模式之間的關(guān)聯(lián)模式轉(zhuǎn)移模型包括:利用馬爾科夫鏈模型按照最大似然性原則根據(jù)所述待訓練數(shù)據(jù)來確定所述多種不同的關(guān)聯(lián)模式之間的轉(zhuǎn)移矩陣。

根據(jù)本公開的第二方面,提供了一種用于執(zhí)行實時預測的方法。所述方法包括:利用多個不同的子預測模型針對實時數(shù)據(jù)執(zhí)行預測,以得到多個初始預測結(jié)果,其中所述多個不同的子預測模型分別適用于多種不同的關(guān)聯(lián)模式;基于所述多種不同的關(guān)聯(lián)模式之間的關(guān)聯(lián)模式轉(zhuǎn)移模型確定所述實時數(shù)據(jù)與所述多個不同的子預測模型之間的匹配度;以及基于所述匹配度對所述多個初始預測結(jié)果進行加權(quán)平均,以確定針對所述實時數(shù)據(jù)的預測結(jié)果。

在根據(jù)本公開的第一方面的實施方式中,所述多個不同的子預測模型是通過識別待訓練數(shù)據(jù)中的所述多種不同的關(guān)聯(lián)模式并且利用與所述多種不同的關(guān)聯(lián)模式相對應(yīng)的多組數(shù)據(jù)分別進行訓練而得到的。

在根據(jù)本公開的第一方面的另一實施方式中,所述關(guān)聯(lián)模式轉(zhuǎn)移模型描述所述多種不同的關(guān)聯(lián)模式之間的模式轉(zhuǎn)移的概率。

在根據(jù)本公開的第一方面的再一實施方式中,所述基于關(guān)聯(lián)模式轉(zhuǎn)移模型確定所述實時數(shù)據(jù)與所述多個不同的子預測模型之間的匹配度包括:通過根據(jù)所述實時數(shù)據(jù)之前的數(shù)據(jù)的關(guān)聯(lián)模式以及所述多種不同的關(guān)聯(lián)模式之間的模式轉(zhuǎn)移的概率計算所述實時數(shù)據(jù)處于所述多種不同的關(guān)聯(lián)模式的各個關(guān)聯(lián)模式的概率,來確定所述匹配度。

根據(jù)本公開的第三方面,提供了一種用于構(gòu)建預測模型的設(shè)備。所述設(shè)備包括:模式識別模塊、模型訓練模塊和模型構(gòu)建模塊。所述模式識別模塊被配置用于識別待訓練數(shù)據(jù)中的多種不同的關(guān)聯(lián)模式,其中所述多種不同的關(guān)聯(lián)模式描述所述待訓練數(shù)據(jù)中的影響因素與目標數(shù)據(jù)之間的多種不同的關(guān)聯(lián)關(guān)系。所述模型訓練模塊被配置用于利用與所述多種不同的關(guān)聯(lián)模式相對應(yīng)的多組數(shù)據(jù)分別進行訓練,以得到適用于所述多種不同的關(guān)聯(lián)模式的多個子預測模型。所述模型構(gòu)建模塊被配置用于根據(jù)所述待訓練數(shù)據(jù)構(gòu)建所述多種不同的關(guān)聯(lián)模式之間的關(guān)聯(lián)模式轉(zhuǎn)移模型,其中所述關(guān)聯(lián)模式轉(zhuǎn)移模型用于在預測過程中確定所述多個不同的子預測模型與待預測數(shù)據(jù)之間的匹配度。

根據(jù)本公開的第四方面,提供了一種用于執(zhí)行實時預測的設(shè)備。所述設(shè)備包括:預測執(zhí)行模塊、匹配度確定模塊和結(jié)果平均模塊。所述預測執(zhí)行模塊被配置用于利用多個不同的子預測模型針對實時數(shù)據(jù)執(zhí)行預測,以得到多個初始預測結(jié)果,其中所述多個不同的子預測模型分別適用于多種不同的關(guān)聯(lián)模式。所述匹配度確定模塊被配置用于基于所述多種不同的關(guān)聯(lián)模式之間的關(guān)聯(lián)模式轉(zhuǎn)移模型確定所述實時數(shù)據(jù)與所述多個不同的子預測模型之間的匹配度。所述結(jié)果平均模塊被配置用于基于所述匹配度對所述多個初始預測結(jié)果進行加權(quán)平均,以確定針對所述實時數(shù)據(jù)的預測結(jié)果。

根據(jù)本公開的第五方面,提供了一種計算程序產(chǎn)品,其上包括有計算機程序代碼,當被加載到計算機設(shè)備中時,其可以使得該計算機設(shè)備執(zhí)行根據(jù)本公開的第一方面的方法。

根據(jù)本公開的第六方面,提供了一種計算程序產(chǎn)品,其上包括有計算機程序代碼,當被加載到計算機設(shè)備中時,其可以使得該計算機設(shè)備執(zhí)行根據(jù)本公開的第二方面的方法。

根據(jù)本公開的第七方面,還提供一種用于構(gòu)建預測模型的設(shè)備,所述設(shè)備包括存儲器,和處理器,所述處理器可以被配置為執(zhí)行根據(jù)本公開的第一方面的方法。

根據(jù)本公開的第八方面,還提供一種用于執(zhí)行實時預測的設(shè)備,所述設(shè)備包括存儲器,和處理器,所述處理器可以被配置為執(zhí)行根據(jù)本公開的第二方面的方法。

根據(jù)本公開的實施方式,可以得到與多個關(guān)聯(lián)模式對應(yīng)的多個預測子模型,而所述關(guān)聯(lián)模式能夠反應(yīng)數(shù)據(jù)本身的特征。因此在實時預測時,就可以基于實時數(shù)據(jù)本身的數(shù)據(jù)特征來動態(tài)調(diào)整各個預測子模型的權(quán)重,因而預測精度可以得到提高。

附圖說明

通過對結(jié)合附圖所示出的實施方式進行詳細說明,本公開的上述以及其他特征將更加明顯,本公開的附圖中相同的標號表示相同或相似的部件。在附圖中:

圖1示意性地示出了根據(jù)本公開的一個實施方式的用于構(gòu)建預測模型的方法的流程圖;

圖2示意性地示出了根據(jù)本公開的一個實施方式的樣本集形成的示意圖;

圖3示意性地示出了根據(jù)本公開的一個實施方式的關(guān)聯(lián)模式識別的流程圖;

圖4示意性地示出了根據(jù)本公開的一個實施方式的數(shù)據(jù)分段劃分的示意圖;

圖5示意性地示出了根據(jù)本公開的一個實施方式的關(guān)聯(lián)模式學習的示意圖;

圖6示意性地示出了根據(jù)本公開的一個實施方式的相似關(guān)聯(lián)模式合并的示意圖;

圖7示意性地示出了根據(jù)本公開的一個實施方式的模型訓練的示意圖;

圖8示意性地示出了根據(jù)本公開的一個實施方式的關(guān)聯(lián)模式轉(zhuǎn)移模型構(gòu)建的示意圖;

圖9示意性地示出了根據(jù)本公開的一個實施方式的用于執(zhí)行實時預測的方法的流程圖;

圖10示意性地示出了根據(jù)本公開的一個實施方式的用于匹配度計算的示意圖;

圖11示意性地示出了根據(jù)本公開的一個實施方式的預測結(jié)果平均的示意圖;

圖12示意性地示出了根據(jù)本公開的一個實施方式的預測系統(tǒng)的整體架構(gòu)的方框圖;

圖13示意性地示出了根據(jù)本公開的一個實施方式的用于構(gòu)建預測模型的設(shè)備的方框圖;以及

圖14示意性地示出了根據(jù)本公開的一個實施方式的用于執(zhí)行實時預測的設(shè)備的方框圖。

具體實施方式

在下文中,將參考附圖詳細描述本公開的各個示例性實施方式。應(yīng)當注意,這些附圖和描述涉及的僅僅是作為示例的優(yōu)選實施方式??梢詰?yīng)該指出的是,根據(jù)隨后的描述,很容易設(shè)想出此處公開的結(jié)構(gòu)和方法的替換實施方式,并且可以在不脫離本公開要求保護的公開的原理的情況下使用這些替代實施方式。

應(yīng)當理解,給出這些示例性實施方式僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進而實現(xiàn)本公開,而并非以任何方式限制本公開的范圍。此外在附圖中,出于說明的目的,將可選的步驟、模塊、模塊等以虛線框示出。

在此使用的術(shù)語“包括”、“包含”及類似術(shù)語應(yīng)該被理解為是開放性的術(shù)語,即“包括/包含但不限于”。術(shù)語“基于”是“至少部分地基于”。術(shù)語“一個實施例”表示“至少一個實施例”;術(shù)語“另一實施例”表示“至少一個另外的實施例”。其他術(shù)語的相關(guān)定義將在下文描述中給出。

如前所述,在現(xiàn)有技術(shù)中,基于多模型的預測方法目前對于實時預測而言有效性仍然不太理想,其預測結(jié)果的準確性和可靠性依然較低。針對此問題,在本公開中提出一種新的技術(shù)方案,該方案是一種基于數(shù)據(jù)中的關(guān)聯(lián)模式劃分并組合使用多個預測模型的方法。根據(jù)該方案,將構(gòu)建針對多種關(guān)聯(lián)模式的多個預測模型,同時在實時預測時,將根據(jù)實時數(shù)據(jù)與預測模型之間的匹配程度動態(tài)調(diào)整各個預測模型的權(quán)重,以便提高預測精度。

在下文中,將參考附圖對根據(jù)本公開的實施方式的用于預測模型構(gòu)建和實時預測的方法和設(shè)備進行詳細描述。然而,需要說明的是,這些描述是僅僅是出于說明的目的,本公開并不局限于這些實施方式和附圖中的細節(jié)。此外,在下面的描述中,將主要參考空氣質(zhì)量預測對本公開的實施方式進行描述。然而需要說明的是,本公開也可能應(yīng)用在其他預測場合,例如氣候預測、交通流量預測等。

圖1示意性地示出了根據(jù)本公開的一個實施方式的用于構(gòu)建預測模型的方法的流程圖。如圖1所示,首先在步驟S101,識別待訓練數(shù)據(jù)中的多種不同的關(guān)聯(lián)模式。如圖2所示,待訓練數(shù)據(jù)可以是從整個歷史時間序列數(shù)據(jù)中采樣得到的數(shù)據(jù),例如包括目標數(shù)據(jù)以及影響因素數(shù)據(jù)。目標數(shù)據(jù)是與預測對象對應(yīng)的數(shù)據(jù),例如在PM2.5預測的場景下,目標數(shù)據(jù)是PM2.5。影響因素是影響目標數(shù)據(jù)的因素,例如在PM2.5預測的場景下,影響因素可以是空氣質(zhì)量因素諸如CO、SO2,交通狀況等。

目標數(shù)據(jù)及其影響因素的時間序列是由數(shù)據(jù)監(jiān)測設(shè)備采集的一系列數(shù)據(jù),諸如是氣象數(shù)據(jù)、空氣質(zhì)量數(shù)據(jù)、交通數(shù)據(jù)、人口密度數(shù)據(jù)、污染源數(shù)據(jù)等的時間序列。可以清楚的是,對于不同的數(shù)據(jù),不同時間序列通常具有不同的尺度、采集間隔等。因此,首先可以對采集得到的數(shù)據(jù)進行預處理,以便將其轉(zhuǎn)化為待訓練的樣本集。例如,可以將在不同的時間(時間)和不同的位置(空間)采集得到的數(shù)據(jù)歸一化為具有相同時間尺度的數(shù)據(jù)序列,從而得到樣本集。Si=(Xi,Yi),即待訓練數(shù)據(jù),其中Xi代表影響因素,Yi代表目標數(shù)據(jù)。由于在預測時,影響因素是輸入,目標數(shù)據(jù)是輸出,所以在下文中也將Xi稱為輸入,將Yi稱為輸出。

影響因素Xi可以包括兩個部分,即歷史序列部分和未來序列部分。在給定預測索引y和時間步長L的情況下,可以將Xi表示如下:

(式1)

該式代表可以獲得時刻i+R+1時刻的數(shù)據(jù)來預測Yi,并且其中代表第p個輸入變量(例如空氣質(zhì)量,交通因素,比如CO和交通流量)在(i+t)時刻的歷史序列部分;代表第q個輸入變量(例如氣象因素,諸如風力,濕度)在(i+t+L)時刻的未來序列部分。

Yi=y(tǒng)i+R-1+L代表在(i+R-1+L)時刻的預測項,其中L是在Xi之后的時間步長;R是輸入變量的范圍,R通常大于時間步長L。需要注意的是,在i+R-1時刻,空氣質(zhì)量和交通數(shù)據(jù)均是檢測數(shù)據(jù),因此,只能夠使用截止到時刻i+R-1的歷史數(shù)據(jù);而氣象數(shù)據(jù)可以是預測數(shù)據(jù),因此可以使用直到(i+R-1+L)時刻的未來數(shù)據(jù)。

接著,可以針對訓練的樣本集Si=(Xi,Yi),執(zhí)行關(guān)聯(lián)模式識別。此處的術(shù)語“關(guān)聯(lián)模式”指代在一個特定時段內(nèi)的待訓練數(shù)據(jù)中的影響因素與目標數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。多種不同的關(guān)聯(lián)模式將描述待訓練數(shù)據(jù)中的影響因素與目標數(shù)據(jù)之間的多種不同的關(guān)聯(lián)關(guān)系。以PM2.5預測為例,第一種關(guān)聯(lián)模式可以指示一氧化碳CO對于PM2.5具有較大影響,第二種關(guān)聯(lián)模式可以指示交通情況對于PM2.5具有較大影響,第三種關(guān)聯(lián)模式可以指示溫度對于PM2.5具有較大影響等等。相同的關(guān)聯(lián)模式中的樣本數(shù)據(jù)將具有共同的特征,因此這些樣本將會形成一個特定的關(guān)聯(lián)模式。

在下文中,將參考一個示例實施方式對關(guān)聯(lián)模式識別進行詳細描述,在該示例實施方式中,將基于Granger Lasso方法和層次聚類來實現(xiàn)關(guān)聯(lián)模式識別。然而需要說明的是,這僅僅是出于說明的目的,本公開也有可能采用任何其他適當?shù)氖侄魏退惴▉矶x和學習關(guān)聯(lián)模式。

參考圖3,首先在步驟S1011,將所述待訓練數(shù)據(jù)按照時間劃分為多個數(shù)據(jù)分段。這里如可以通過一個滑動時間窗口來實現(xiàn)。圖4示意性地示出了根據(jù)本公開的一個實施方式的分段劃分的示意圖。如圖4所示,該滑動時間窗口具有固定的長度Len例如為8,每次分段劃分例如移動一個樣本。這樣就可以得到例如P個分段Seci,其中i=1至P。然而需要說明的是,分段長度和移動步長是為了說明的目的而給出的,本公開并不局限于此。

對于給定的窗口長度Len和樣本集(S1,S2,...,Sn},樣本集可以被劃分為n-len+1個分段,其中Seci={Si,Si+1,...,Si+len-1}。

接著,在步驟S1012,學習所述多個數(shù)據(jù)分段中的各個數(shù)據(jù)分段的關(guān)聯(lián)模式。換句話講,針對每個數(shù)據(jù)分段,學習該組數(shù)據(jù)的關(guān)聯(lián)模式。圖5中示出了根據(jù)本公開的一個實施方式的關(guān)聯(lián)模式學習的示意圖。在該圖中,采用的是Granger Lasso圖模型方法。該Granger Lasso圖模型方法的目標函數(shù)可以通過下面的式子來表示:

(式2)

其中為輸入數(shù)據(jù)的向量,其由各個時間序列變量xi的一段數(shù)據(jù)組成;y為對應(yīng)的輸出;為系數(shù)向量,其反映了特定的輸入xi與輸出y之間的關(guān)聯(lián);n為待訓練的各個數(shù)據(jù)分段的樣本數(shù)目,λ為正則項系數(shù)。

將Granger Lasso方法應(yīng)用于各個數(shù)據(jù)分段Seci,以便學習輸入與輸出之間的關(guān)聯(lián)關(guān)系。結(jié)果將針對每個數(shù)據(jù)分段Seci得到一個對應(yīng)的權(quán)重向量Wi,其中如圖5所示。此處將Seci的關(guān)聯(lián)模式表示為Pi,并使用該權(quán)重向量Wi作為關(guān)聯(lián)模式Pi的特征空間。

然后,在步驟S1013,通過合并相似的關(guān)聯(lián)模式和對應(yīng)的數(shù)據(jù)分段來確定所述多種不同的關(guān)聯(lián)模式。針對圖5中得到的多個關(guān)聯(lián)模式,可以確定他們之間的相似度,并基于相似閾值,來對這些關(guān)聯(lián)模式進行合并,最終得到多種不同的關(guān)聯(lián)模式PA-PQ。

在根據(jù)本公開的一個實施方式中,關(guān)聯(lián)模式之間的相似度可以通過特征空間中的每個元素的權(quán)重來計算。例如可以通過下面給出的式子來度量相似度:

(式3)

通過該式子可以確定出兩個關(guān)聯(lián)模式Wi和Wj之間的相似度。

在根據(jù)本公開的一個實施方式中,使用層次聚類對關(guān)聯(lián)模式進行聚類。特別地,在初始狀態(tài)時,每個關(guān)聯(lián)模式Pi單獨為一類,即Ci=Pi。此后,逐層地構(gòu)造聚類樹,在每一層將當前最相似的兩個類聚為一個新的模式類,如圖6所示。兩個類Ca和Cb之間的相似度可以定義如下:

Sim_Ca,b=max{Sim_Pi,j|Pi∈Ca,Pj∈Cb}

(式4)

需要說明的是,按照上述定義,Sim_Ca,b越小,類Ca和Cb越相似。對于一個預定的相似度閾值δ,當某層出現(xiàn)min{Sim_Ca,b}>δ時,則該層聚類停止,這表示此時各個類之間已足夠不相似。假設(shè)兩個類Ca、Cb合并為新類Cab(對應(yīng)的新關(guān)聯(lián)模式記為Pab),則兩個類對應(yīng)的樣本數(shù)據(jù)也被合并在一起,并且樣本對應(yīng)的關(guān)聯(lián)模式也被更新為Pab。

最終,假設(shè)我們得到了K個關(guān)聯(lián)模式的聚類,記為對每一個聚類中的數(shù)據(jù),重新用Granger Lasso方法計算出一個新的權(quán)重向量。這樣將會得到K個對應(yīng)的權(quán)重向量這K個權(quán)重向量就是對應(yīng)的關(guān)聯(lián)模式的特征空間。

這樣,通過例如圖3中所示的方法,就可以識別出待訓練數(shù)據(jù)中的多個不同的關(guān)聯(lián)模式。

現(xiàn)在返回繼續(xù)參考圖1。如圖1所示,在識別出待訓練數(shù)據(jù)中的多種不同的關(guān)聯(lián)模式之后,可以在步驟S102,利用所述多種不同的關(guān)聯(lián)模式相對應(yīng)的對組數(shù)據(jù)分組分別進行訓練,以得到適用于所述多種不同的關(guān)聯(lián)模式的多個子預測模型。例如,可以針對得到的K個關(guān)聯(lián)模式及其對應(yīng)的K個數(shù)據(jù)分組,分別訓練K個預測模型,如圖7所示。預測模型可以根據(jù)數(shù)據(jù)情況進行不同的選擇,如果分組中的數(shù)據(jù)量較小則使用Lasso回歸模型,數(shù)據(jù)量較大,則可以使用深度神經(jīng)網(wǎng)絡(luò)模型。在下面將以Lasso回歸模型為例進行說明。對于K種關(guān)聯(lián)模式,可以學習K個Lasso回歸模型。對于樣本集為Seti={Si1,Si2,...,Sim}的Lasso回歸模型的目標函數(shù)可以表示為:

(式5)

在選定的預測模型的情況下,利用待訓練數(shù)據(jù)來訓練模型可以采用本領(lǐng)域任何適當?shù)姆椒?,這對于本領(lǐng)域技術(shù)人員而言是已知的。因此,此處為了簡化起見不再進行詳細說明。

接下來,在步驟S103,根據(jù)所述待訓練的數(shù)據(jù)構(gòu)建多種不同的關(guān)聯(lián)模式之間的關(guān)聯(lián)模式轉(zhuǎn)移模型。關(guān)聯(lián)模式轉(zhuǎn)移模型描述所述多種不同的關(guān)聯(lián)模式之間的模式轉(zhuǎn)移規(guī)律的模型,例如可以描述所述多種不同的關(guān)聯(lián)模式之間的模式轉(zhuǎn)移的概率。基于該模型,可以確定例如一個關(guān)聯(lián)模式在下一步轉(zhuǎn)移到各個關(guān)聯(lián)模式的概率。

在本公開的一個實施方式中,利用馬爾科夫鏈模型按照最大似然性原則根據(jù)所述待訓練數(shù)據(jù)來確定所述多種不同的關(guān)聯(lián)模式之間的轉(zhuǎn)移矩陣。然而需要說明的是,也可以采用任何其他適當?shù)募夹g(shù)來構(gòu)建關(guān)聯(lián)模式轉(zhuǎn)移模型。特別地,對于每個歷史樣本,都存在一個對應(yīng)的關(guān)聯(lián)模式,這樣可以針對樣本集和得到關(guān)聯(lián)模式的序列:

{S1,S2,...,Sn}→{P(1),P(2),...,P(n)},

(式6)

其中St為t時刻的樣本;P(t)為t時刻的關(guān)聯(lián)模式。根據(jù)Markov鏈模型,一階轉(zhuǎn)移矩陣A可以按最大似然估計原則計算如下:

(式7)

其中表示轉(zhuǎn)移到的次數(shù)。這樣就得到了關(guān)聯(lián)模式轉(zhuǎn)移模型,例如如圖8所示。然而需要說明的是,盡管在上式5中給出了一階轉(zhuǎn)移矩陣,但是本公開不僅限于此,也有可能采用更高階矩陣。

這樣,通過上面給出的方法,可以得到適用于多種不同模式的子預測模型,并且獲得了多種不同的關(guān)聯(lián)模式之間的模式轉(zhuǎn)移模型。該模式轉(zhuǎn)移模型可以用于在預測過程中確定所述多個不同的子預測模型與待預測數(shù)據(jù)之間的匹配度。這樣,執(zhí)行預測時,就可以基于待預測的實時數(shù)據(jù)與各個子預測模型的匹配度來動態(tài)調(diào)整各個預測子模型的權(quán)重。在下文中,將繼續(xù)參考圖9至圖11來描述本公開中提供的一種用于執(zhí)行實時預測的方法。

參考圖9,首先在步驟S901,利用多個不同的子預測模型針對實時數(shù)據(jù)執(zhí)行預測,以得到多個初始預測結(jié)果。所述多個不同的子預測模型分別適用于多種不同的關(guān)聯(lián)模式。因此,在該步驟使用的子預測模型與傳統(tǒng)方法中使用的多個預測模型是不同的。傳統(tǒng)方法中使用的多個預測模型是通過訓練隨機劃分的數(shù)據(jù)分組而得到的多個預測模型,而本公開中的多個子預測模型,是針對各個不同的關(guān)聯(lián)模式的子模型。當監(jiān)測的實時數(shù)據(jù)輸入時,可以利用在訓練階段得到的多個不同的子預測模型分別執(zhí)行預測,這樣可以得到多個初始預測結(jié)果。

接著,在步驟S902可以基于所述多種不同的關(guān)聯(lián)模式之間的關(guān)聯(lián)模式轉(zhuǎn)移模型確定所述實時數(shù)據(jù)與所述多個不同的子預測模型之間的匹配度。例如,對于t時刻的實時數(shù)據(jù)St,時刻t之前一段時間的數(shù)據(jù)序列為{St-k,...,St-1},對應(yīng)的關(guān)聯(lián)模式序列為{P{t-k},...,P(t-1)}。此處使用idx(t)指示P(t)的下標,例如則idx(t-k)=3);使用f(j)指示的轉(zhuǎn)移概率,則f(j)可以被表示為:

(式8)

其中A(t-i)為(t-i)-階轉(zhuǎn)移矩陣,且其可以被計算為C-K函數(shù)A(n)=A(n-1)A。這樣,對于實時數(shù)據(jù)St,其屬于各個關(guān)聯(lián)模式的概率為f(i)。

在根據(jù)本公開的一個方式中,直接使用該概率f(i)來表示實時數(shù)據(jù)St與關(guān)聯(lián)模式之間的匹配度Di,即Di=f(i)。然而,需要說明的是,本公開并不局限于此。事實上,匹配度Di也可以是基于該概率f(i)通過其他方式計算得到的值。換言之匹配度Di可以是概率f(i)的函數(shù)。匹配度Di反映了實時數(shù)據(jù)St屬于一個特定的關(guān)聯(lián)模式的概率的大小。Di越大,則該實時數(shù)據(jù)與該關(guān)聯(lián)模式越為匹配。因此,Di越大,也就意味著該實時數(shù)據(jù)與適用于該關(guān)聯(lián)模式的預測模型更為匹配,該預測模型的可靠性越高。在下面將參考圖10來描述匹配度計算的是一個示例。

參考圖10,該圖示意性地示出了根據(jù)本公開的一個實施方式的用于匹配度計算的示意圖。如圖10所示,對于實時數(shù)據(jù)S100,其之前時間最近的三個樣本S99,S98和S97的關(guān)聯(lián)模式分別為P2、P3和P1?;谶@三個樣本的關(guān)聯(lián)模式和轉(zhuǎn)移概率矩陣,并利用式6中示出的轉(zhuǎn)移概率計算公式,可以確定出實時樣本S100與P1、P2、P3和P4的匹配度分別為0.79、1.08、0.47和0.66。也就是說,該實時數(shù)據(jù)S100與關(guān)聯(lián)模式P2具有最大的匹配度而與關(guān)聯(lián)模式P3具有最小的匹配度。

返回參考圖9,然后在步驟S903,基于所述匹配度對上面所述的多個初始預測結(jié)果進行加權(quán)平均,以確定出針對所述實時數(shù)據(jù)的最終預測結(jié)果。例如,對于K個初始預測結(jié)果,可以利用K個對應(yīng)的關(guān)聯(lián)模式匹配度對初始預測結(jié)果進行加權(quán)平均。

該預測結(jié)果平均例如可以通過以下方式來執(zhí)行。首先,可以針對得到的K個匹配度執(zhí)行歸一化,該歸一化可以通過下面的式子給出:

(式9)

然后利用歸一化后的匹配度執(zhí)行加權(quán)平均,因此最后的輸出結(jié)過可以通過下面的式子表示:

Rfinal=ΣD_normi·Ri

其中Ri指示利用多個預測模型得到的多個預測結(jié)果。

出于說明的目的,在圖11中示出了根據(jù)本公開的一個實施方式的預測結(jié)果加權(quán)平均的示意圖。如圖11所示,其中初始的預測結(jié)果A至Q分別利用對應(yīng)的匹配度值(0.79,0.47,…,1.08)進行加權(quán)平均,進而將加權(quán)平均后的輸出作為最終預測結(jié)果。最后,可以實時存儲最終的預測結(jié)果。

需要說明的是,在上面的描述中,將步驟S901描述為在S902之前進行操作。然而,本公開并不局限于此,實際上步驟S902也有可能在步驟S901之前執(zhí)行,或者并行地執(zhí)行兩個步驟。

下面將參考圖12來描述根據(jù)本公開的一個實施方式的預測系統(tǒng)的整體架構(gòu)的方框圖,以使得本領(lǐng)域技術(shù)人員對于本公開的預測系統(tǒng)的總體架構(gòu)有個更加深入的理解。如圖12所示,該預測系統(tǒng)架構(gòu)可以被劃分為訓練過程和預測過程,其中在訓練過程中將使用歷史數(shù)據(jù)進行訓練,以確定出針對多個不同的關(guān)聯(lián)模式的多個子預測模型以及多個不同的關(guān)聯(lián)模式之間的關(guān)聯(lián)轉(zhuǎn)移模型。在預測階段中,將基于訓練過程中得到的預測模型和關(guān)聯(lián)模式轉(zhuǎn)移模型執(zhí)行預測。

具體地,如圖12所示,在訓練過程中,首先針對歷史數(shù)據(jù)執(zhí)行預處理,以便對各種數(shù)據(jù)執(zhí)行歸一化。接著,執(zhí)行關(guān)聯(lián)模式識別,例如可以通過滑動時間窗間該數(shù)據(jù)劃分為P個數(shù)據(jù)分段,然后學習每個數(shù)據(jù)分段的關(guān)聯(lián)模式;接著對相似的關(guān)聯(lián)模式進行合并,進而得到K種關(guān)聯(lián)模式。然后針對每種關(guān)聯(lián)模式,利用對應(yīng)的數(shù)據(jù)分組執(zhí)行訓練,進而得到多個預測模型,即預測模型A至K。與此同時,可以根據(jù)歷史數(shù)據(jù)構(gòu)建K種不同的關(guān)聯(lián)模式之間的關(guān)聯(lián)模式轉(zhuǎn)移模型。在預測過程中,針對采集到的實時數(shù)據(jù),基于在訓練階段得到多個預測模型執(zhí)行實時預測,進而得到多個初始預測結(jié)果,即預測結(jié)果A至預測結(jié)果K。同時,可以例如基于式5和關(guān)聯(lián)模式轉(zhuǎn)移模型計算出該實時數(shù)據(jù)與多個預測模型之間的匹配度。然后基于計算的匹配度對預測結(jié)果A至預測結(jié)果K進行加權(quán)平均,并最終將經(jīng)過加權(quán)平均的預測結(jié)果作為最終預測結(jié)果輸出。

從上文中針對本公開的實施方式的描述可以看出,在本公開中,可以得到與多個關(guān)聯(lián)模式對應(yīng)的多個預測子模型,而所述關(guān)聯(lián)模式能夠反應(yīng)出數(shù)據(jù)本身的特征。因此在實時預測時,就可以基于實時數(shù)據(jù)本身的數(shù)據(jù)特征來動態(tài)調(diào)整各個預測子模型的權(quán)重,因而預測精度可以得到提高。

在上文中,針對本公開中提供過的用于構(gòu)建預測模型的方法和用于實時預測的方法進行了描述。此外,本公開中還提供了一種用于構(gòu)建預測模型的設(shè)備和一種用于執(zhí)行實時預測的設(shè)備。在下文中將參考圖13和圖14對這些設(shè)備進行詳細地描述。

圖13示出了根據(jù)本公開的一個實施方式的用于構(gòu)建預測模型的設(shè)備的方框圖。該設(shè)備1300包括模式識別模塊1310、模型訓練模塊1320以及模型構(gòu)建模塊1330。所述模式識別模塊1310可以被配置用于識別待訓練數(shù)據(jù)中的多種不同的關(guān)聯(lián)模式,其中所述多種不同的關(guān)聯(lián)模式描述所述待訓練數(shù)據(jù)中的影響因素與目標數(shù)據(jù)之間的多種不同的關(guān)聯(lián)關(guān)系。所述模型訓練模塊1320可以被配置用于利用與所述多種不同的關(guān)聯(lián)模式相對應(yīng)的多組數(shù)據(jù)分別進行訓練,以得到適用于所述多種不同的關(guān)聯(lián)模式的多個子預測模型。所述模型構(gòu)建模塊1330可以被配置用于根據(jù)所述待訓練數(shù)據(jù)構(gòu)建所述多種不同的關(guān)聯(lián)模式之間的關(guān)聯(lián)模式轉(zhuǎn)移模型,其中所述關(guān)聯(lián)模式轉(zhuǎn)移模型用于在預測過程中確定所述多個不同的子預測模型與待預測數(shù)據(jù)之間的匹配度。所述關(guān)聯(lián)模式轉(zhuǎn)移模型可以描述所述多種不同的關(guān)聯(lián)模式之間的模式轉(zhuǎn)移規(guī)律。特別地,在一個實施方式中,所述關(guān)聯(lián)模式轉(zhuǎn)移模型可以描述所述多種不同的關(guān)聯(lián)模式之間的模式轉(zhuǎn)移的概率。

此外,所述模式識別模塊1310可以進一步包括數(shù)據(jù)劃分模塊1312、模式學習模塊1314和模式確定模塊1316。所述數(shù)據(jù)劃分模塊1312可以被配置用于將所述待訓練數(shù)據(jù)按照時間劃分為多個數(shù)據(jù)分段。所述模式學習模塊1314可以被配置用于學習所述多個數(shù)據(jù)分段中的各個數(shù)據(jù)分段的關(guān)聯(lián)模式。所述模式確定模塊1316可以被配置用于通過合并相似的關(guān)聯(lián)模式和對應(yīng)的數(shù)據(jù)分段來確定所述多種不同的關(guān)聯(lián)模式。

另外,所述模式確定模塊1316進一步被配置用于通過基于層次聚類對所述各個數(shù)據(jù)分段的關(guān)聯(lián)模式進行聚類來確定出所述多種不同的關(guān)聯(lián)模式。

在一個實施方式中,所述模型構(gòu)建模塊1330可以被配置用于:利用馬爾科夫鏈模型按照最大似然性原則根據(jù)所述待訓練數(shù)據(jù),來確定所述多種不同的關(guān)聯(lián)模式之間的轉(zhuǎn)移矩陣。

接著參考圖14,圖14示意性地示出了根據(jù)本公開的一個實施方式的用于實時預測的設(shè)備的方框圖。如圖14所示,設(shè)備1400包括結(jié)果預測模塊1410、匹配度確定模塊1420和結(jié)果平均模塊1430。所述結(jié)果預測模塊1410可以被配置用于利用多個不同的子預測模型針對實時數(shù)據(jù)執(zhí)行預測,以得到多個初始預測結(jié)果,其中所述多個不同的子預測模型分別適用于多種不同的關(guān)聯(lián)模式。所述匹配度確定模塊1420可以被配置用于基于所述多種不同的關(guān)聯(lián)模式之間的關(guān)聯(lián)模式轉(zhuǎn)移模型確定所述實時數(shù)據(jù)與所述多個不同的子預測模型之間的匹配度。所述結(jié)果平均模塊1430可以被配置用于基于所述匹配度對所述多個初始預測結(jié)果進行加權(quán)平均,以確定針對所述實時數(shù)據(jù)的預測結(jié)果。所述多個不同的子預測模型可以是通過識別待訓練數(shù)據(jù)中的所述多種不同的關(guān)聯(lián)模式并且利用與所述多種不同的關(guān)聯(lián)模式相對應(yīng)的多組數(shù)據(jù)分別進行訓練而得到的。另外,所述關(guān)聯(lián)模式轉(zhuǎn)移模型可以描述所述多種不同的關(guān)聯(lián)模式之間的模式轉(zhuǎn)移規(guī)律。特別地,在一個實施方式中,所述關(guān)聯(lián)模式轉(zhuǎn)移模型可以描述所述多種不同的關(guān)聯(lián)模式之間的模式轉(zhuǎn)移的概率。

此外,所述匹配度確定模塊1420可以被配置為:通過根據(jù)所述實時數(shù)據(jù)之前的數(shù)據(jù)的關(guān)聯(lián)模式以及所述多種不同的關(guān)聯(lián)模式之間的模式轉(zhuǎn)移的概率計算所述實時數(shù)據(jù)處于所述多種不同的關(guān)聯(lián)模式的各個關(guān)聯(lián)模式的概率,來確定所述匹配度。

需要說明的是,上面參考圖13和14所描述的設(shè)備1300和1400中的各個模塊可以被配置為執(zhí)行與參考圖1至圖12所描述的方法相對應(yīng)的操作。因此,此處不再詳細描述設(shè)備1300和1400的各個模塊的具體操作。關(guān)于這些模塊的具體操作的細節(jié),可以參考結(jié)合圖1至圖12針對相應(yīng)方法的各個步驟進行的描述。

另外還需理解的是,本公開的實施方式可以以軟件、硬件或者軟件和硬件的結(jié)合來實現(xiàn)。硬件部分可以利用專用邏輯來實現(xiàn);軟件部分可以存儲在存儲器中,由適當?shù)闹噶顖?zhí)行系統(tǒng),例如微處理器或者專用設(shè)計硬件來執(zhí)行。本領(lǐng)域的普通技術(shù)人員可以理解上述的方法和設(shè)備可以使用計算機可執(zhí)行指令和/或包含在處理器控制代碼中來實現(xiàn),例如在諸如磁盤、CD或DVD-ROM的載體介質(zhì)、諸如只讀存儲器(固件)的可編程的存儲器或者諸如光學或電子信號載體的數(shù)據(jù)載體上提供了這樣的代碼。本實施例的設(shè)備及其組件可以由諸如超大規(guī)模集成電路或門陣列、諸如邏輯芯片、晶體管等的半導體、或者諸如現(xiàn)場可編程門陣列、可編程邏輯設(shè)備等的可編程硬件設(shè)備的硬件電路實現(xiàn),也可以用由各種類型的處理器執(zhí)行的軟件實現(xiàn),也可以由上述硬件電路和軟件的結(jié)合例如固件來實現(xiàn)。

雖然已經(jīng)參考目前考慮到的實施方式描述了本公開,但是應(yīng)該理解本公開不限于所公開的實施方式。相反,本公開旨在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改和等同布置。以下權(quán)利要求的范圍符合最廣泛解釋,以便包含所有這樣的修改及等同結(jié)構(gòu)和功能。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1