本發(fā)明涉及微博檢索分類器,具體為一種基于多種檢索模型的實時微博分類器。
背景技術(shù):
目前,不同的微博檢索技術(shù)都是應(yīng)用一種檢索模型或者一種分類技術(shù),且不具備實時性的特點。一般可以利用多種檢索模型中的一種,比如:布爾模型,向量空間模型,概率模型,語言模型,詞嵌入模型。分類技術(shù)也有很多種,比如:樸素貝葉斯分類,最近鄰分類,邏輯回歸分類,隨機森林分類,決策樹分類,梯度提升分類,支持向量機分類。
當前分類器都是基于一種檢索模型,常見的是向量空間模型,采用TF-IDF加權(quán),應(yīng)用某種分類技術(shù)對微博進行分類,且沒有針對微博實時性的特點。向量空間模型實現(xiàn)簡單但是對訓(xùn)練集和測試集有限制,訓(xùn)練與測試模型時必須是針對相同的檢索問題,如果出現(xiàn)不同的檢索問題,則需要重新訓(xùn)練模型。不能針對不同用戶,不同檢索問題實現(xiàn)實時的檢索。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種基于多種檢索模型的實時微博分類器,以解決上述背景技術(shù)中提出的問題。
本發(fā)明的目的是通過下述技術(shù)方案予以實現(xiàn):一種基于多種檢索模型的實時微博分類器,其特征在于,包括:
(1)用戶在指定網(wǎng)站下載指定電腦版微博檢索軟件或者手機版微博檢索軟件;
(2)用戶在微博檢索軟件注冊成功后,使用手機或者電腦向微博檢索軟件信息統(tǒng)計處理中心發(fā)送檢索信息內(nèi)容;
(3)信息統(tǒng)計處理中心接收到用戶發(fā)出的檢索內(nèi)容后,首先采用布爾模型信息檢索模型,文字、數(shù)字或者單詞等用戶查詢的內(nèi)容由其包含的單詞集合來表示,兩者的相似性則通過布爾代數(shù)運算來進行判定,隨后得出初級檢索結(jié)果。
在本發(fā)明一個較佳的實施例中,所述得出的初級檢索結(jié)果后由處理器將用戶輸入的搜索內(nèi)容編輯成由t維特征組成的一個向量,同時處理器將得出的初級檢索結(jié)果編輯成若干個t維特征組成的若干個個向量,進而檢索內(nèi)容向量與初級檢索結(jié)果向量相互對比,得出更進一步的匹配結(jié)果。
在本發(fā)明一個較佳的實施例中,所述隨后系統(tǒng)根據(jù)進一步的匹配結(jié)果與谷歌搜索引擎向結(jié)合,將用戶所需要搜索的內(nèi)容與谷歌網(wǎng)實時進行相似度計算,得到不同的相似度計算結(jié)果,每種相似度作為一個高級特征,這樣將一條博文轉(zhuǎn)換為高級特征向量,還有一些其他高級特征包括詞性統(tǒng)計,重合單詞統(tǒng)計、博文客觀度,博文極性等,再根據(jù)有標注的訓(xùn)練集對分類器進行訓(xùn)練,分類器選擇了以上所有分類器進行測試,通過訓(xùn)練測試找出最佳分類器,分類特征綜合話題、話題擴展和上述各種檢索模型計算得出進一步結(jié)果。
在本發(fā)明一個較佳的實施例中,所述最后中央處理器將上述得出更進一步的匹配結(jié)果與谷歌搜索引擎分類得出的結(jié)果進行對比排除,進而得出具有實時意義的匹配結(jié)果。
在本發(fā)明一個較佳的實施例中,所述該微博分類器具有機械學(xué)習(xí)功能,能夠在日常工作中進行自我學(xué)習(xí),通過算法讓機器自我減少誤差,可以根據(jù)函數(shù)預(yù)測結(jié)果,通過有監(jiān)督學(xué)習(xí)方式訓(xùn)練的分類器在性能具有優(yōu)勢。
本發(fā)明的有益效果是:該發(fā)明一種基于多種檢索模型的實時微博分類器,通過使用這種方法,通過多種檢索方式可以得出最佳分類器,由于分類器采用高級特征,可以對任意不同話題做檢索,同時通過與谷歌檢索可以得到最新的檢索結(jié)果,實現(xiàn)排除陳舊信息的目的,同時使用多重檢索方式,使檢索效率和檢索的準確率上升,進而增加檢索分類器的工作量,同時可以實現(xiàn)實時檢索的功能。
附圖說明
圖1為本發(fā)明整體示意圖。
具體實施方式
下面結(jié)合具體實施方式進一步的說明,但是下文中的具體實施方式不應(yīng)當做被理解為對本體發(fā)明的限制。本領(lǐng)域普通技術(shù)人員能夠在本發(fā)明基礎(chǔ)上顯而易見地作出的各種改變和變化,應(yīng)該均在發(fā)明的范圍之內(nèi)。
實施例
如圖1所示:一種基于多種檢索模型的實時微博分類器,包括:
(1)用戶在指定網(wǎng)站下載指定電腦版微博檢索軟件或者手機版微博檢索軟件;
(2)用戶在微博檢索軟件注冊成功后,使用手機或者電腦向微博檢索軟件信息統(tǒng)計處理中心發(fā)送檢索信息內(nèi)容;
(3)信息統(tǒng)計處理中心接收到用戶發(fā)出的檢索內(nèi)容后,首先采用布爾模型信息檢索模型,文字、數(shù)字或者單詞等用戶查詢的內(nèi)容由其包含的單詞集合來表示,兩者的相似性則通過布爾代數(shù)運算來進行判定,隨后得出初級檢索結(jié)果。
所述得出的初級檢索結(jié)果后由處理器將用戶輸入的搜索內(nèi)容編輯成由t維特征組成的一個向量,同時處理器將得出的初級檢索結(jié)果編輯成若干個t維特征組成的若干個個向量,進而檢索內(nèi)容向量與初級檢索結(jié)果向量相互對比,得出更進一步的匹配結(jié)果。
所述隨后系統(tǒng)根據(jù)進一步的匹配結(jié)果與谷歌搜索引擎向結(jié)合,將用戶所需要搜索的內(nèi)容與谷歌網(wǎng)實時進行相似度計算,得到不同的相似度計算結(jié)果,每種相似度作為一個高級特征,這樣將一條博文轉(zhuǎn)換為高級特征向量,還有一些其他高級特征包括詞性統(tǒng)計,重合單詞統(tǒng)計、博文客觀度,博文極性等,再根據(jù)有標注的訓(xùn)練集對分類器進行訓(xùn)練,分類器選擇了以上所有分類器進行測試,通過訓(xùn)練測試找出最佳分類器,分類特征綜合話題、話題擴展和上述各種檢索模型計算得出進一步結(jié)果。
所述后中央處理器將上述得出更進一步的匹配結(jié)果與谷歌搜索引擎分類得出的結(jié)果進行對比排除,進而得出具有實時意義的匹配結(jié)果。
所述該微博分類器具有機械學(xué)習(xí)功能,能夠在日常工作中進行自我學(xué)習(xí),通過算法讓機器自我減少誤差,可以根據(jù)函數(shù)預(yù)測結(jié)果,通過有監(jiān)督學(xué)習(xí)方式訓(xùn)練的分類器在性能具有優(yōu)勢。
以上描述僅為本申請的較佳實施例以及對所運用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應(yīng)當理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時也應(yīng)涵蓋在不脫離所述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術(shù)特征進行互相替換而形成的技術(shù)方案。