本發(fā)明屬于網(wǎng)絡(luò)信息數(shù)據(jù)處理,尤其涉及一種基于云計(jì)算的大數(shù)據(jù)信息分析方法、裝置、存儲(chǔ)介質(zhì)及系統(tǒng)。
背景技術(shù):
1、目前,隨著互聯(lián)網(wǎng)技術(shù)的普及度不斷提高,網(wǎng)絡(luò)中的數(shù)據(jù)量也愈加龐大,大數(shù)據(jù)信息分析處理方法也應(yīng)運(yùn)而生。
2、大數(shù)據(jù)信息分析是指從海量、異構(gòu)、動(dòng)態(tài)的互聯(lián)網(wǎng)數(shù)據(jù)中提取有價(jià)值的信息、模式或知識(shí)并進(jìn)行分析的過程。它結(jié)合了大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘算法、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理(nlp)和網(wǎng)絡(luò)分析等方法,旨在解決數(shù)據(jù)規(guī)模大、結(jié)構(gòu)復(fù)雜、實(shí)時(shí)性強(qiáng)等挑戰(zhàn)。
3、目前針對(duì)網(wǎng)絡(luò)數(shù)據(jù)的分析主要是基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語(yǔ)言處理等方法,而這類方法的輸出精度均依賴于數(shù)據(jù)輸入的“純度”。但目前網(wǎng)絡(luò)中有大量例如ai合成的批量化生產(chǎn)出的營(yíng)銷信息、謠言信息等噪聲數(shù)據(jù),影響著各類數(shù)據(jù)分析系統(tǒng)的分析準(zhǔn)確性,造成結(jié)果不可信,因此有待對(duì)現(xiàn)有的信息分析方法做出進(jìn)一步改進(jìn)。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例的目的在于提供一種基于云計(jì)算的大數(shù)據(jù)信息分析方法,旨在解決目前網(wǎng)絡(luò)中有大量例如ai合成的批量化生產(chǎn)出的營(yíng)銷信息、謠言信息等噪聲數(shù)據(jù),影響著各類數(shù)據(jù)分析系統(tǒng)的分析準(zhǔn)確性,造成分析結(jié)果不可信的問題。
2、本申請(qǐng)實(shí)施例是這樣實(shí)現(xiàn)的,提供一種基于云計(jì)算的大數(shù)據(jù)信息分析方法,所述方法包括:
3、獲取待分析內(nèi)容的目標(biāo)關(guān)鍵詞,基于網(wǎng)絡(luò)信息獲取對(duì)所述目標(biāo)關(guān)鍵詞進(jìn)行內(nèi)容評(píng)價(jià)的若干評(píng)價(jià)文章;
4、獲取每篇所述評(píng)價(jià)文章的行文特征,所述行文特征用于表征所述評(píng)價(jià)文章的結(jié)構(gòu)邏輯特征和/或內(nèi)容表述特征;
5、對(duì)全部所述行文特征進(jìn)行聚類分析,以將具有高相似度的行文特征聚為一個(gè)類,從每個(gè)類中獲取一個(gè)表征該類的典型的模板化特征,得到若干模板化特征;將每篇評(píng)價(jià)文章的行文特征與所述模板化特征進(jìn)行相似度計(jì)算,得到每篇所述評(píng)價(jià)文章的模板化分?jǐn)?shù);
6、基于情感分析模型對(duì)評(píng)價(jià)文章進(jìn)行內(nèi)容分析,得到每篇評(píng)價(jià)文章對(duì)所述目標(biāo)關(guān)鍵詞進(jìn)行好惡評(píng)價(jià)的內(nèi)容評(píng)分;
7、分別以所述模板化分?jǐn)?shù)和內(nèi)容評(píng)分作為橫坐標(biāo)和縱坐標(biāo),以每篇評(píng)價(jià)文章作為一個(gè)數(shù)據(jù)點(diǎn),構(gòu)建得到二維評(píng)價(jià)點(diǎn)云圖。
8、本申請(qǐng)實(shí)施例的另一目的在于,提供一種基于云計(jì)算的大數(shù)據(jù)信息分析裝置,所述基于云計(jì)算的大數(shù)據(jù)信息分析裝置包括:
9、評(píng)價(jià)文章獲取模塊,用于獲取待分析內(nèi)容的目標(biāo)關(guān)鍵詞,基于網(wǎng)絡(luò)信息獲取對(duì)所述目標(biāo)關(guān)鍵詞進(jìn)行內(nèi)容評(píng)價(jià)的若干評(píng)價(jià)文章;
10、行文特征獲取模塊,用于獲取每篇所述評(píng)價(jià)文章的行文特征,所述行文特征用于表征所述評(píng)價(jià)文章的結(jié)構(gòu)邏輯特征和/或內(nèi)容表述特征;
11、模板化分?jǐn)?shù)獲取模塊,用于對(duì)全部所述行文特征進(jìn)行聚類分析,以將具有高相似度的行文特征聚為一個(gè)類,從每個(gè)類中獲取一個(gè)表征該類的典型的模板化特征,得到若干模板化特征;將每篇評(píng)價(jià)文章的行文特征與所述模板化特征進(jìn)行相似度計(jì)算,得到每篇所述評(píng)價(jià)文章的模板化分?jǐn)?shù);
12、內(nèi)容評(píng)分獲取模塊,用于基于情感分析模型對(duì)評(píng)價(jià)文章進(jìn)行內(nèi)容分析,得到每篇評(píng)價(jià)文章對(duì)所述目標(biāo)關(guān)鍵詞進(jìn)行好惡評(píng)價(jià)的內(nèi)容評(píng)分;
13、二維評(píng)價(jià)點(diǎn)云圖獲取模塊,用于分別以所述模板化分?jǐn)?shù)和內(nèi)容評(píng)分作為橫坐標(biāo)和縱坐標(biāo),以每篇評(píng)價(jià)文章作為一個(gè)數(shù)據(jù)點(diǎn),構(gòu)建得到二維評(píng)價(jià)點(diǎn)云圖。
14、本申請(qǐng)實(shí)施例的另一目的在于,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如上所述的基于云計(jì)算的大數(shù)據(jù)信息分析方法的步驟。
15、本申請(qǐng)實(shí)施例的另一目的在于,提供一種基于云計(jì)算的大數(shù)據(jù)信息分析系統(tǒng),包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如上所述的基于云計(jì)算的大數(shù)據(jù)信息分析方法的步驟。
16、本申請(qǐng)實(shí)施例提供的一種基于云計(jì)算的大數(shù)據(jù)信息分析方法,突出優(yōu)勢(shì)在于,本申請(qǐng)利用云端平臺(tái)的高計(jì)算能力,將大數(shù)據(jù)分析技術(shù)與信息提取技術(shù)進(jìn)行深度整合,以二維圖像的形式有效分離出批量生成內(nèi)容與非模式化生成內(nèi)容對(duì)于待評(píng)價(jià)目標(biāo)的評(píng)價(jià),從而能夠得到更加真實(shí)、客觀的評(píng)價(jià)數(shù)據(jù),去除噪聲帶來(lái)的影響,尤其適用于產(chǎn)品口碑分析等需要快速響應(yīng)海量文字?jǐn)?shù)據(jù)的場(chǎng)景,精準(zhǔn)高效。
1.一種基于云計(jì)算的大數(shù)據(jù)信息分析方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種基于云計(jì)算的大數(shù)據(jù)信息分析方法,其特征在于,所述結(jié)構(gòu)邏輯特征的獲取方法為:
3.根據(jù)權(quán)利要求2所述的一種基于云計(jì)算的大數(shù)據(jù)信息分析方法,其特征在于,所述內(nèi)容表述特征至少包括信息密度特征,所述信息密度特征的獲取方法為:
4.根據(jù)權(quán)利要求3所述的一種基于云計(jì)算的大數(shù)據(jù)信息分析方法,其特征在于,當(dāng)所述行文特征表征所述評(píng)價(jià)文章的結(jié)構(gòu)邏輯特征和內(nèi)容表述特征時(shí),所述行文特征的獲取方法為:
5.根據(jù)權(quán)利要求1所述的一種基于云計(jì)算的大數(shù)據(jù)信息分析方法,其特征在于,對(duì)全部所述行文特征進(jìn)行聚類分析,以將具有高相似度的行文特征聚為一個(gè)類的方法包括:
6.根據(jù)權(quán)利要求1所述的一種基于云計(jì)算的大數(shù)據(jù)信息分析方法,其特征在于,所述模板化特征的獲取方式還包括:
7.根據(jù)權(quán)利要求1所述的一種基于云計(jì)算的大數(shù)據(jù)信息分析方法,其特征在于,所述方法還包括:
8.一種基于云計(jì)算的大數(shù)據(jù)信息分析裝置,其特征在于,所述基于云計(jì)算的大數(shù)據(jù)信息分析裝置包括:
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),使得所述處理器執(zhí)行權(quán)利要求1至7中任一項(xiàng)所述的基于云計(jì)算的大數(shù)據(jù)信息分析方法的步驟。
10.一種基于云計(jì)算的大數(shù)據(jù)信息分析系統(tǒng),其特征在于,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如權(quán)利要求1至7中任意一項(xiàng)所述的基于云計(jì)算的大數(shù)據(jù)信息分析方法的步驟。