本發(fā)明涉及冶金行業(yè)大數(shù)據(jù)采集與信息,具體為一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法。
背景技術(shù):
1、鋼鐵行業(yè)在生產(chǎn)運營過程中,各系統(tǒng)間累積了多主體、多業(yè)務(wù)、多層級的海量資源數(shù)據(jù),蘊藏巨大的挖掘價值。但同時還具有關(guān)聯(lián)性差、集中管控難的痛點。擁有各自的數(shù)據(jù)存儲和訪問方式的各類應(yīng)用系統(tǒng),最終將導(dǎo)致“數(shù)據(jù)孤島”現(xiàn)象,數(shù)據(jù)利用率大大下降,工藝、質(zhì)量、生產(chǎn)等反映公司運營情況的數(shù)據(jù),缺乏深入挖掘及決策支持,不利于產(chǎn)線生產(chǎn)、質(zhì)量提升。
2、隨著大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展,etl技術(shù)以其高效的集成效率、簡化接口開發(fā)的優(yōu)點為企業(yè)集成多源異構(gòu)數(shù)據(jù),存儲到企業(yè)大數(shù)據(jù)信息庫提供了思路。但是存在商用軟件價格昂貴,使用普及率很低,開源免費工具又存在系統(tǒng)穩(wěn)定性等方面問題。
3、為了實現(xiàn)企業(yè)級大數(shù)據(jù)資源融合,深度挖掘數(shù)據(jù)潛在價值,提升數(shù)據(jù)決策粘合度,需要解決以下問題:探索一套數(shù)據(jù)融合方案,實現(xiàn)對企業(yè)多源異構(gòu)數(shù)據(jù)的采集,搭建企業(yè)級信息庫,深度分析產(chǎn)線生產(chǎn)規(guī)律,為企業(yè)決策提供數(shù)據(jù)支撐,同時保證數(shù)據(jù)融合技術(shù)方案的穩(wěn)定性、高可用性和數(shù)據(jù)準(zhǔn)確性。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法,解決了針對鋼鐵企業(yè)積累的海量數(shù)據(jù)資源存儲分散,無法充分挖掘及高效利用的弊端的問題,探索多源異構(gòu)數(shù)據(jù)融合,搭建企業(yè)級大數(shù)據(jù)信息庫而建立的一種基于etl的數(shù)據(jù)采集可復(fù)用模型的方法。
2、為實現(xiàn)以上目的,本發(fā)明通過以下技術(shù)方案予以實現(xiàn):一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法,通過搭建etl調(diào)度模塊、etl可執(zhí)行程序模塊和etl反饋評價模塊建立數(shù)據(jù)采集可復(fù)用模型,實現(xiàn)了對鋼鐵企業(yè)包含生產(chǎn)、工藝、質(zhì)量、物流等多源異構(gòu)數(shù)據(jù)的自動采集,建立了企業(yè)級大數(shù)據(jù)信息庫,為企業(yè)的精益生產(chǎn)綜合管控提供了數(shù)據(jù)支撐。
3、優(yōu)選的,具體包括以下步驟:
4、步驟s1:搭建etl調(diào)度模塊,依據(jù)不同的業(yè)務(wù)場景及優(yōu)先級設(shè)置定時任務(wù),靈活調(diào)度etl執(zhí)行腳本,觸發(fā)etl可執(zhí)行程序模塊運行。
5、步驟s2:建立基于etl的多源異構(gòu)數(shù)據(jù)采集模型,按照數(shù)據(jù)類型劃分為結(jié)構(gòu)化數(shù)據(jù)和實時數(shù)據(jù),分類進(jìn)行數(shù)據(jù)整合,實現(xiàn)對源系統(tǒng)到目標(biāo)系統(tǒng)的數(shù)據(jù)采集。
6、步驟s3:建立etl評價反饋模型,開發(fā)與etl執(zhí)行日志的接口,獲取執(zhí)行日志中標(biāo)識錯誤的信息,定位到數(shù)據(jù)異常的etl任務(wù)、異常原因及異常發(fā)生時間。
7、優(yōu)選的,所述步驟s1中,其特征在于,針對etl調(diào)度模塊,建立了數(shù)據(jù)冗余機制,主備機調(diào)度任務(wù)通過設(shè)置啟動時間差以及調(diào)度執(zhí)行狀態(tài)更新,實現(xiàn)主備機的負(fù)載均衡。
8、優(yōu)選的,etl調(diào)度模塊的具體實現(xiàn)步驟為:(1)在orac?l?e數(shù)據(jù)庫中建立一張etl調(diào)度任務(wù)表,用于對調(diào)度任務(wù)名稱、調(diào)度執(zhí)行時間、執(zhí)行周期、執(zhí)行狀態(tài)、執(zhí)行路徑等調(diào)度任務(wù)信息進(jìn)行配置;(2)通過etl調(diào)度任務(wù)配置表中的任務(wù)狀態(tài)0/1的取值標(biāo)識任務(wù)是否正在執(zhí)行。(3)通過etl調(diào)度任務(wù)配置表中的調(diào)度執(zhí)行時間分別記錄主備機搶占任務(wù)執(zhí)行時間。(4)依據(jù)定時任務(wù)設(shè)置邏輯循環(huán)執(zhí)行步驟(2)、(3)中過程。
9、優(yōu)選的,所述步驟s2中,建立的etl多源異構(gòu)數(shù)據(jù)采集模型,其特征在于,按照結(jié)構(gòu)化數(shù)據(jù)和實時數(shù)據(jù)的不同數(shù)據(jù)類型,分別建立相應(yīng)的etl可執(zhí)行程序。結(jié)構(gòu)化數(shù)據(jù)采集模型分為全量數(shù)據(jù)抽取、增量數(shù)據(jù)抽取、關(guān)聯(lián)表增量數(shù)據(jù)抽取三類分支,實時數(shù)據(jù)模型分為webapi和opc兩類分支。
10、優(yōu)選的,建立的etl多源異構(gòu)數(shù)據(jù)采集模型,從不同類型的數(shù)據(jù)抽取任務(wù)中抽象出編號、業(yè)務(wù)線、etl任務(wù)id、子任務(wù)id、源庫類型、數(shù)據(jù)源表、目標(biāo)表、寫入模式、任務(wù)描述、時間參數(shù)等參數(shù),將配置化參數(shù)寫入orac?l?e數(shù)據(jù)庫中,自動實現(xiàn)整個etl處理過程。同一類型的etl任務(wù)可通過同一模型進(jìn)行數(shù)據(jù)采集,方便后期開發(fā)。
11、優(yōu)選的,所述步驟s3中,其特征在于編寫java程序,建立與etl執(zhí)行日志的接口,獲取日志中的錯誤信息,同時將異常信息反饋到前端界面進(jìn)行展示,并實現(xiàn)顏色標(biāo)識。
12、本發(fā)明提供了一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法。
13、具備以下有益效果:
14、1、本發(fā)明提供了一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法,通過對etl機理的研究,搭建了一套多源異構(gòu)數(shù)據(jù)采集模型,實現(xiàn)了對不同類型的數(shù)據(jù)源到目標(biāo)系統(tǒng)的數(shù)據(jù)同步,完成了企業(yè)級大數(shù)據(jù)的融合。
15、2、本發(fā)明提供了一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法,通過建立與執(zhí)行日志的接口,匹配關(guān)鍵信息實現(xiàn)對異常數(shù)據(jù)信息的識別反饋及評價。
16、3、本發(fā)明提供了一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法,綜合考慮模型使用過程中的穩(wěn)定性,建立了數(shù)據(jù)冗余機制,使數(shù)據(jù)壓力可以分散到不同的服務(wù)器節(jié)點上,提升數(shù)據(jù)同步效率及系統(tǒng)的安全性穩(wěn)定性。
1.一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法,其特征在于:通過搭建etl調(diào)度模塊、etl可執(zhí)行程序模塊和etl反饋評價模塊建立數(shù)據(jù)采集可復(fù)用模型,實現(xiàn)了對鋼鐵企業(yè)包含生產(chǎn)、工藝、質(zhì)量、物流等多源異構(gòu)數(shù)據(jù)的自動采集,建立了企業(yè)級大數(shù)據(jù)信息庫,為企業(yè)的精益生產(chǎn)綜合管控提供了數(shù)據(jù)支撐。
2.根據(jù)權(quán)利要求1所述的一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法,其特征在于,具體包括以下步驟:
3.根據(jù)權(quán)利要求2所述的一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法,其特征在于:所述步驟s1中,其特征在于,針對etl調(diào)度模塊,建立了數(shù)據(jù)冗余機制,主備機調(diào)度任務(wù)通過設(shè)置啟動時間差以及調(diào)度執(zhí)行狀態(tài)更新,實現(xiàn)主備機的負(fù)載均衡。
4.根據(jù)權(quán)利要求3所述的一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法,其特征在于:etl調(diào)度模塊的具體實現(xiàn)步驟為:(1)在oracle數(shù)據(jù)庫中建立一張etl調(diào)度任務(wù)表,用于對調(diào)度任務(wù)名稱、調(diào)度執(zhí)行時間、執(zhí)行周期、執(zhí)行狀態(tài)、執(zhí)行路徑等調(diào)度任務(wù)信息進(jìn)行配置;(2)通過etl調(diào)度任務(wù)配置表中的任務(wù)狀態(tài)0/1的取值標(biāo)識任務(wù)是否正在執(zhí)行。(3)通過etl調(diào)度任務(wù)配置表中的調(diào)度執(zhí)行時間分別記錄主備機搶占任務(wù)執(zhí)行時間。(4)依據(jù)定時任務(wù)設(shè)置邏輯循環(huán)執(zhí)行步驟(2)、(3)中過程。
5.根據(jù)權(quán)利要求2所述的一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法,其特征在于:所述步驟s2中,建立的etl多源異構(gòu)數(shù)據(jù)采集模型,其特征在于,按照結(jié)構(gòu)化數(shù)據(jù)和實時數(shù)據(jù)的不同數(shù)據(jù)類型,分別建立相應(yīng)的etl可執(zhí)行程序。結(jié)構(gòu)化數(shù)據(jù)采集模型分為全量數(shù)據(jù)抽取、增量數(shù)據(jù)抽取、關(guān)聯(lián)表增量數(shù)據(jù)抽取三類分支,實時數(shù)據(jù)模型分為web?api和opc兩類分支。
6.根據(jù)權(quán)利要求5所述的一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法,其特征在于:建立的etl多源異構(gòu)數(shù)據(jù)采集模型,從不同類型的數(shù)據(jù)抽取任務(wù)中抽象出編號、業(yè)務(wù)線、etl任務(wù)id、子任務(wù)id、源庫類型、數(shù)據(jù)源表、目標(biāo)表、寫入模式、任務(wù)描述、時間參數(shù)等參數(shù),將配置化參數(shù)寫入oracle數(shù)據(jù)庫中,自動實現(xiàn)整個etl處理過程。同一類型的etl任務(wù)可通過同一模型進(jìn)行數(shù)據(jù)采集,方便后期開發(fā)。
7.根據(jù)權(quán)利要求2所述的一種基于etl多源異構(gòu)數(shù)據(jù)采集可復(fù)用模型建立的方法,其特征在于:所述步驟s3中,其特征在于編寫java程序,建立與etl執(zhí)行日志的接口,獲取日志中的錯誤信息,同時將異常信息反饋到前端界面進(jìn)行展示,并實現(xiàn)顏色標(biāo)識。