本發(fā)明屬于數(shù)據(jù)分類,具體涉及一種基于深度學(xué)習(xí)的數(shù)據(jù)分類方法及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的發(fā)展,工作和生活已經(jīng)進(jìn)入了數(shù)字化信息時(shí)代。大量的數(shù)據(jù)產(chǎn)生,為數(shù)據(jù)管理提出了迫切的需求。在進(jìn)行數(shù)據(jù)管理時(shí),需要對(duì)不同數(shù)據(jù)進(jìn)行分類,需要投入大量的成本,因此,如何進(jìn)行高效快速的數(shù)據(jù)分類,成為信息技術(shù)普及和發(fā)展主要限制。
2、現(xiàn)有的數(shù)據(jù)分類技術(shù),存在如下缺陷:
3、1)分類準(zhǔn)確性不足:現(xiàn)有的數(shù)據(jù)分類大多依靠簡單的程序或工具根據(jù)文件后綴或者附加信息進(jìn)行,無法挖掘數(shù)據(jù)的深層特征,不適用于多模態(tài)數(shù)據(jù),導(dǎo)致分類準(zhǔn)確性低,無法滿足用戶的需求;
4、2)數(shù)據(jù)處理能力不足:現(xiàn)有的數(shù)據(jù)分類技術(shù)的智能化程度低,導(dǎo)致數(shù)據(jù)處理的效率低下,無法適用于大規(guī)模的數(shù)據(jù)處理;
5、3)缺乏定制化:現(xiàn)有的數(shù)據(jù)分類技術(shù)大多利用預(yù)設(shè)的分類規(guī)則進(jìn)行,忽略了不同用戶對(duì)于分類標(biāo)準(zhǔn)存在較大差異,導(dǎo)致用戶體驗(yàn)度低。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)存在的分類準(zhǔn)確性不足、數(shù)據(jù)處理能力不足以及缺乏定制化的問題,本發(fā)明目的在于提供一種基于深度學(xué)習(xí)的數(shù)據(jù)分類方法及系統(tǒng)。
2、本發(fā)明所采用的技術(shù)方案為:
3、一種基于深度學(xué)習(xí)的數(shù)據(jù)分類方法,包括如下步驟:
4、根據(jù)若干歷史用戶基本信息和若干歷史待分類數(shù)據(jù),使用深度學(xué)習(xí)算法,構(gòu)建用戶畫像生成模型和數(shù)據(jù)分類模型;
5、根據(jù)實(shí)時(shí)用戶基本信息,使用用戶畫像生成模型,進(jìn)行用戶畫像生成,得到實(shí)時(shí)用戶畫像;
6、根據(jù)實(shí)時(shí)用戶畫像和實(shí)時(shí)待分類數(shù)據(jù),使用數(shù)據(jù)分類模型,進(jìn)行數(shù)據(jù)分類,得到實(shí)時(shí)數(shù)據(jù)分類結(jié)果;
7、使用區(qū)塊鏈網(wǎng)絡(luò),對(duì)實(shí)時(shí)用戶畫像、實(shí)時(shí)待分類數(shù)據(jù)以及實(shí)時(shí)數(shù)據(jù)分類結(jié)果進(jìn)行分布式存儲(chǔ)。
8、進(jìn)一步地,用戶畫像生成模型基于rf-mlp算法構(gòu)建,且用戶畫像生成模型包括依次連接的基于rf算法構(gòu)建的關(guān)鍵特征篩選模塊和基于mlp算法構(gòu)建的用戶畫像生成模塊;
9、數(shù)據(jù)分類模型包括基于gcn-logfbank-cnn-lstm-attention-dbn算法構(gòu)建的數(shù)據(jù)分類模型,且數(shù)據(jù)分類模型包括基于gcn算法構(gòu)建的圖結(jié)構(gòu)特征提取模塊、基于logfbank算法構(gòu)建的音頻特征提取模塊、基于cnn算法構(gòu)建的圖像特征提取模塊、基于lstm算法構(gòu)建的序列特征提取模塊、基于attention機(jī)制構(gòu)建的注意力權(quán)重模塊以及基于dbn算法構(gòu)建的數(shù)據(jù)分類模塊,圖結(jié)構(gòu)特征提取模塊、音頻特征提取模塊、圖像特征提取模塊以及序列特征提取模塊均與注意力權(quán)重模塊連接,注意力權(quán)重模塊與數(shù)據(jù)分類模塊連接。
10、進(jìn)一步地,根據(jù)若干歷史用戶基本信息和若干歷史待分類數(shù)據(jù),使用深度學(xué)習(xí)算法,構(gòu)建用戶畫像生成模型和數(shù)據(jù)分類模型,包括如下步驟:
11、采集若干歷史用戶基本信息和若干歷史待分類數(shù)據(jù),并對(duì)其進(jìn)行預(yù)處理,得到若干預(yù)處理后歷史用戶基本信息和若干預(yù)處理后歷史待分類數(shù)據(jù);
12、對(duì)預(yù)處理后歷史待分類數(shù)據(jù)進(jìn)行數(shù)據(jù)解析,得到對(duì)應(yīng)的預(yù)處理后歷史音頻數(shù)據(jù)、預(yù)處理后歷史圖像數(shù)據(jù)以及預(yù)處理后歷史序列數(shù)據(jù);
13、根據(jù)若干預(yù)處理后歷史用戶基本信息,使用深度學(xué)習(xí)算法,構(gòu)建用戶畫像生成模型,并生成若干歷史用戶畫像;
14、根據(jù)若干歷史用戶畫像、若干預(yù)處理后歷史待分類數(shù)據(jù)的預(yù)處理后歷史音頻數(shù)據(jù)、預(yù)處理后歷史圖像數(shù)據(jù)以及預(yù)處理后歷史序列數(shù)據(jù),使用深度學(xué)習(xí)算法,構(gòu)建數(shù)據(jù)分類模型。
15、進(jìn)一步地,根據(jù)若干預(yù)處理后歷史用戶基本信息,使用深度學(xué)習(xí)算法,構(gòu)建用戶畫像生成模型,并生成若干歷史用戶畫像,包括如下步驟:
16、使用rf-mlp算法,構(gòu)建初始的用戶畫像生成模型;初始的用戶畫像生成模型包括初始的關(guān)鍵特征篩選模塊和初始的用戶畫像生成模塊;
17、根據(jù)若干預(yù)處理后歷史用戶基本信息,對(duì)初始的關(guān)鍵特征篩選模塊進(jìn)行訓(xùn)練,得到若干關(guān)鍵特征指標(biāo)、每一預(yù)處理后歷史用戶基本信息的若干歷史關(guān)鍵特征以及最終的關(guān)鍵特征篩選模塊;
18、根據(jù)所有預(yù)處理后歷史用戶基本信息的若干歷史關(guān)鍵特征,對(duì)初始的用戶畫像生成模塊進(jìn)行訓(xùn)練,得到若干歷史用戶畫像和最終的用戶畫像生成模塊;
19、整合最終的關(guān)鍵特征篩選模塊和最終的用戶畫像生成模塊,得到最終的用戶畫像生成模型。
20、進(jìn)一步地,根據(jù)若干歷史用戶畫像、若干預(yù)處理后歷史待分類數(shù)據(jù)的預(yù)處理后歷史音頻數(shù)據(jù)、預(yù)處理后歷史圖像數(shù)據(jù)以及預(yù)處理后歷史序列數(shù)據(jù),使用深度學(xué)習(xí)算法,構(gòu)建數(shù)據(jù)分類模型,包括如下步驟:
21、使用gcn-logfbank-cnn-lstm-attention-dbn算法,構(gòu)建初始的數(shù)據(jù)分類模型;
22、以最小化均方誤差為優(yōu)化目標(biāo),使用群智能優(yōu)化算法,對(duì)初始的數(shù)據(jù)分類模型的初始模型參數(shù)進(jìn)行優(yōu)化,得到優(yōu)化的數(shù)據(jù)分類模型;優(yōu)化的數(shù)據(jù)分類模型包括優(yōu)化的圖結(jié)構(gòu)特征提取模塊、優(yōu)化的音頻特征提取模塊、優(yōu)化的圖像特征提取模塊、優(yōu)化的序列特征提取模塊、優(yōu)化的注意力權(quán)重模塊以及優(yōu)化的數(shù)據(jù)分類模塊;
23、根據(jù)若干預(yù)處理后歷史待分類數(shù)據(jù),對(duì)優(yōu)化的數(shù)據(jù)分類模塊進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練的數(shù)據(jù)分類模塊;
24、根據(jù)若干歷史用戶畫像,對(duì)優(yōu)化的圖結(jié)構(gòu)特征提取模塊進(jìn)行訓(xùn)練,得到若干歷史圖結(jié)構(gòu)特征和最終的圖結(jié)構(gòu)特征提取模塊;
25、根據(jù)若干預(yù)處理后歷史音頻數(shù)據(jù),對(duì)優(yōu)化的音頻特征提取模塊進(jìn)行訓(xùn)練,得到若干歷史音頻特征和最終的音頻特征提取模塊;
26、根據(jù)若干預(yù)處理后歷史圖像數(shù)據(jù),對(duì)優(yōu)化的圖像特征提取模塊進(jìn)行訓(xùn)練,得到若干歷史圖像特征和最終的圖像特征提取模塊;
27、根據(jù)若干預(yù)處理后歷史序列數(shù)據(jù),對(duì)優(yōu)化的序列特征提取模塊進(jìn)行訓(xùn)練,得到若干歷史序列特征和最終的序列特征提取模塊;
28、根據(jù)若干歷史圖結(jié)構(gòu)特征、若干歷史音頻特征、若干歷史圖像特征以及若干歷史序列特征,對(duì)優(yōu)化的注意力權(quán)重模塊進(jìn)行訓(xùn)練,得到若干歷史融合特征和最終的注意力權(quán)重模塊;
29、根據(jù)若干歷史融合特征,對(duì)優(yōu)化的數(shù)據(jù)分類模塊進(jìn)行訓(xùn)練,得到最終的數(shù)據(jù)分類模塊;
30、整合最終的圖結(jié)構(gòu)特征提取模塊、最終的圖像特征提取模塊、最終的序列特征提取模塊、最終的注意力權(quán)重模塊以及最終的數(shù)據(jù)分類模塊,得到最終的數(shù)據(jù)分類模型。
31、進(jìn)一步地,根據(jù)實(shí)時(shí)用戶基本信息,使用用戶畫像生成模型,進(jìn)行用戶畫像生成,得到實(shí)時(shí)用戶畫像,包括如下步驟:
32、采集實(shí)時(shí)用戶基本信息,對(duì)實(shí)時(shí)用戶基本信息進(jìn)行預(yù)處理,得到預(yù)處理后實(shí)時(shí)用戶基本信息;
33、根據(jù)若干關(guān)鍵特征指標(biāo),使用關(guān)鍵特征篩選模塊,進(jìn)行關(guān)鍵特征篩選,得到預(yù)處理后實(shí)時(shí)用戶基本信息的若干實(shí)時(shí)關(guān)鍵特征;
34、根據(jù)若干實(shí)時(shí)關(guān)鍵特征,使用用戶畫像生成模塊,進(jìn)行用戶畫像生成,得到實(shí)時(shí)用戶畫像。
35、進(jìn)一步地,根據(jù)實(shí)時(shí)用戶畫像和實(shí)時(shí)待分類數(shù)據(jù),使用數(shù)據(jù)分類模型,進(jìn)行數(shù)據(jù)分類,得到實(shí)時(shí)數(shù)據(jù)分類結(jié)果,包括如下步驟:
36、采集實(shí)時(shí)待分類數(shù)據(jù),對(duì)實(shí)時(shí)待分類數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理后實(shí)時(shí)待分類數(shù)據(jù);
37、對(duì)預(yù)處理后實(shí)時(shí)待分類數(shù)據(jù)進(jìn)行數(shù)據(jù)解析,得到對(duì)應(yīng)的預(yù)處理后實(shí)時(shí)音頻數(shù)據(jù)、預(yù)處理后實(shí)時(shí)圖像數(shù)據(jù)以及預(yù)處理后實(shí)時(shí)序列數(shù)據(jù);
38、根據(jù)實(shí)時(shí)用戶畫像、預(yù)處理后實(shí)時(shí)音頻數(shù)據(jù)、預(yù)處理后實(shí)時(shí)圖像數(shù)據(jù)以及預(yù)處理后實(shí)時(shí)序列數(shù)據(jù),使用數(shù)據(jù)分類模型,進(jìn)行數(shù)據(jù)分類,得到實(shí)時(shí)數(shù)據(jù)分類結(jié)果。
39、進(jìn)一步地,根據(jù)實(shí)時(shí)用戶畫像、預(yù)處理后實(shí)時(shí)音頻數(shù)據(jù)、預(yù)處理后實(shí)時(shí)圖像數(shù)據(jù)以及預(yù)處理后實(shí)時(shí)序列數(shù)據(jù),使用數(shù)據(jù)分類模型,進(jìn)行數(shù)據(jù)分類,得到實(shí)時(shí)數(shù)據(jù)分類結(jié)果,包括如下步驟:
40、將實(shí)時(shí)用戶畫像、預(yù)處理后實(shí)時(shí)音頻數(shù)據(jù)、預(yù)處理后實(shí)時(shí)圖像數(shù)據(jù)以及預(yù)處理后實(shí)時(shí)序列數(shù)據(jù)輸入數(shù)據(jù)分類模型;
41、根據(jù)實(shí)時(shí)用戶畫像,使用圖結(jié)構(gòu)特征提取模塊,進(jìn)行圖結(jié)構(gòu)特征提取,得到實(shí)時(shí)圖結(jié)構(gòu)特征;
42、根據(jù)預(yù)處理后實(shí)時(shí)音頻數(shù)據(jù),使用音頻特征提取模塊,進(jìn)行音頻特征提取,得到實(shí)時(shí)音頻特征;
43、根據(jù)預(yù)處理后實(shí)時(shí)圖像數(shù)據(jù),使用圖像特征提取模塊,進(jìn)行圖像特征提取,得到實(shí)時(shí)圖像特征;
44、根據(jù)預(yù)處理后實(shí)時(shí)序列數(shù)據(jù),使用序列特征提取模塊,進(jìn)行序列特征提取,得到實(shí)時(shí)序列特征;
45、根據(jù)預(yù)設(shè)注意力權(quán)重,使用注意力權(quán)重模塊,對(duì)實(shí)時(shí)圖結(jié)構(gòu)特征、實(shí)時(shí)音頻特征、實(shí)時(shí)圖像特征以及實(shí)時(shí)序列特征,進(jìn)行特征融合,得到實(shí)時(shí)融合特征;
46、根據(jù)實(shí)時(shí)融合特征,使用數(shù)據(jù)分類模塊,進(jìn)行數(shù)據(jù)分類,得到實(shí)時(shí)數(shù)據(jù)分類結(jié)果。
47、進(jìn)一步地,使用區(qū)塊鏈網(wǎng)絡(luò),對(duì)實(shí)時(shí)用戶畫像、實(shí)時(shí)待分類數(shù)據(jù)以及實(shí)時(shí)數(shù)據(jù)分類結(jié)果進(jìn)行分布式存儲(chǔ),包括如下步驟:
48、將同一用戶的實(shí)時(shí)用戶畫像、實(shí)時(shí)待分類數(shù)據(jù)以及實(shí)時(shí)數(shù)據(jù)分類結(jié)果進(jìn)行關(guān)聯(lián),得到實(shí)時(shí)關(guān)聯(lián)數(shù)據(jù);
49、將實(shí)時(shí)關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)至區(qū)塊鏈網(wǎng)絡(luò)的ipfs系統(tǒng),得到實(shí)時(shí)數(shù)據(jù)哈希值,并調(diào)用智能合約,根據(jù)實(shí)時(shí)數(shù)據(jù)哈希值,生成對(duì)應(yīng)的實(shí)時(shí)交易數(shù)據(jù);
50、調(diào)用智能合約,將實(shí)時(shí)交易數(shù)據(jù)轉(zhuǎn)換為實(shí)時(shí)區(qū)塊,并使用區(qū)塊鏈網(wǎng)絡(luò)的若干分布式節(jié)點(diǎn),對(duì)實(shí)時(shí)區(qū)塊進(jìn)行上鏈存儲(chǔ),并生成對(duì)應(yīng)的實(shí)時(shí)交易記錄;
51、根據(jù)實(shí)時(shí)關(guān)聯(lián)數(shù)據(jù)在ipfs系統(tǒng)的實(shí)時(shí)存儲(chǔ)地址、實(shí)時(shí)檢索標(biāo)簽以及實(shí)時(shí)交易記錄,更新區(qū)塊鏈網(wǎng)絡(luò)的分布式賬本。
52、一種基于深度學(xué)習(xí)的數(shù)據(jù)分類系統(tǒng),用于實(shí)現(xiàn)數(shù)據(jù)分類方法,其特征在于:系統(tǒng)包括依次連接的模型構(gòu)建單元、用戶畫像生成單元、數(shù)據(jù)分類單元以及分布式存儲(chǔ)單元。
53、本發(fā)明的有益效果為:
54、本發(fā)明提供的一種基于深度學(xué)習(xí)的數(shù)據(jù)分類方法及系統(tǒng),通過構(gòu)建數(shù)據(jù)分類模型,實(shí)現(xiàn)了高效的數(shù)據(jù)分類,并且深度學(xué)習(xí)算法能夠挖掘數(shù)據(jù)的深層特征,作為數(shù)據(jù)分類的依據(jù),提高了分類準(zhǔn)確性,滿足用戶對(duì)于數(shù)據(jù)分類準(zhǔn)確性的要求;提供了自動(dòng)化的數(shù)據(jù)分類功能,能夠?qū)Χ嗄B(tài)數(shù)據(jù)進(jìn)行特征提取、處理以及分類,提高了智能化程度和數(shù)據(jù)處理的效率,尤其是在面對(duì)海量數(shù)據(jù)處理環(huán)境下,提高了實(shí)用性;在數(shù)據(jù)分類過程中,考慮到不同用戶對(duì)于分類標(biāo)準(zhǔn)存在較大差異,根據(jù)用戶基本信息,使用用戶畫像模型進(jìn)行用戶畫像生成,結(jié)合用戶的偏好、習(xí)慣進(jìn)行定制化分類,提高了用戶體驗(yàn)度;采用區(qū)塊鏈網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行分布式存儲(chǔ),確保了數(shù)據(jù)的安全性,保證了數(shù)據(jù)分類的可溯源性。
55、本發(fā)明的其他有益效果將在具體實(shí)施方式中進(jìn)一步進(jìn)行說明。