本發(fā)明涉及到問答社區(qū)的專家推薦研究,是基于跨平臺標簽融合的專家推薦方法。
背景技術:
伴隨互聯(lián)網(wǎng)及信息化的發(fā)展,社區(qū)問答系統(tǒng)成為用戶在網(wǎng)絡中獲取信息的重要平臺,用戶可以通過自然語言對自己想了解的內(nèi)容進行提問,由社區(qū)中其他用戶進行解答。通過自然語言的交流,使得問答系統(tǒng)可以為用戶之間提供很好的知識信息分享,更加方便地滿足用戶的信息需求。而隨著社區(qū)問答系統(tǒng)中用戶數(shù)量的增加,提問的數(shù)量也隨之增多,社區(qū)中許多的問題長時間無法得到解答,或者得到的回答質(zhì)量不高,根本無法滿足問題需求。因此為了提高問答社區(qū)的工作效率,我們需要設計合適的推薦系統(tǒng)向社區(qū)中的問題推薦合適的回答者,增強用戶的社區(qū)參與度,提高社區(qū)中的內(nèi)容質(zhì)量。
目前問答社區(qū)中的專家推薦算法一般都是利用單一社區(qū)的用戶文檔或網(wǎng)絡結構進行對用戶進行建模并推薦,但單一平臺的數(shù)據(jù)通常只包含用戶的部分特征,并不能全面地構建用戶模型。
技術實現(xiàn)要素:
本發(fā)明針對現(xiàn)有推薦算法的不足,利用對跨平臺用戶數(shù)據(jù)進行研究,提出了一直基于標簽融合的用戶興趣建模方法,并基于此實現(xiàn)問答社區(qū)中的專家推薦算法。
首先通過對知乎和微博兩個平臺的數(shù)據(jù)進行分析,從微博的社交關系以及知乎社區(qū)的問答功能出發(fā),結合lda主題模型與word2vec對文本標簽的語義進行深入挖掘,利用標簽語義相似度矩陣設計跨平臺的標簽融合算法,構建融合的用戶興趣模型。相比單一網(wǎng)絡的用戶模型,跨平臺用戶模型能更全面覆蓋用戶不同特性,對用戶特征有更清晰的描述。
同時綜合考慮了社區(qū)用戶的興趣偏好、回答能力度及影響力實現(xiàn)專家推薦。算法利用用戶知乎和微博平臺的歷史數(shù)據(jù),通過標簽融合建模方法對知乎專家用戶的興趣進行分析;對跨平臺的共同用戶構建融合關注關系網(wǎng)絡,結合pagerank算法對用戶的綜合影響力進行分析;同時通過知乎社區(qū)的問答反饋機制,分析用戶的回答能力度。通過實驗結果表明,本文提出的算法具有更好的推薦效果。
本發(fā)明的有益效果是:通過跨平臺的信息構建用戶興趣模型,能更全面獲取用戶的興趣偏好。進而考慮用戶在問答社區(qū)中的回答能力度及影響力,找出最適合對社區(qū)中待回答問題進行解答的用戶,進行推薦。降低問答社區(qū)中問題的等待回答時間,提高社區(qū)運行效率。
附圖說明
圖1為本發(fā)明的主題詞選取流程。
圖2為本發(fā)明的推薦算法流程圖。
圖3為本發(fā)明的帶權重關注網(wǎng)絡示意圖。
具體實施方式
本發(fā)明以知乎問答社區(qū)為例,研究知乎與微博平臺之間的用戶特征關系。
通過前兩節(jié)的分析及數(shù)據(jù)的處理,我們已經(jīng)提取到共同用戶在兩個平臺中的興趣主題,為了得到一個綜合的用戶興趣模型,我們需要將兩個平臺的主題標簽進行融合。
在對每個用戶不同平臺的標簽向量進行分析時,由于主題提取算法是通過生成概率對主題進行建模,沒有考慮詞的語義特征,結果導致部分用戶的標簽中含有許多相似的詞。因此如果直接將兩個特征空間的詞進行合并,將會使得用戶的標簽空間過大,同時用戶在很多特征詞上的值為0,導致數(shù)據(jù)稀疏問題,對用戶的建模產(chǎn)生影響。
于是我們引入語義相似度分析,通過標簽映射的思想,對兩個主題空間內(nèi)的主題標簽之間進行語義相似度計算,對于相似度高的兩個主題標簽,選擇其中對用戶興趣指代性強,區(qū)分度高的詞作為特征詞,最終構建融合主題空間。
對于每個用戶,其知乎標簽rz與微博標簽rw的主題標簽相似度矩陣tr定義如下:
其中dij來自兩個網(wǎng)絡的特征詞的相似度:
dij=sim(wzi,wwj)
其中,wzi代表用戶知乎標簽中第i個詞的詞向量,wwj代表用戶微博標簽中第j個詞的詞向量,我們通過word2vec模型進行計算。
本發(fā)明將用戶的歷史問答及微博分詞數(shù)據(jù)作為輸入變量進行訓練,設每個詞的向量維度為n,對于每一個用戶,通過訓練好的模型對rz及rw中的每個詞做詞向量轉(zhuǎn)化,得到每一個用戶的單一平臺主題矩陣:
m=[w(t)]
其中t屬于rz或rw,矩陣中每一行w(t)表示用戶的主題標簽t的n維詞向量。
通過生成每個平臺中的主題標簽的詞向量,便可以通過向量余弦計算兩個平臺中各標簽之間的相似度,計算公式為:
其中ik,jk分布為詞向量中每個維度的值。
在得到標簽相似度矩陣后,對于相似度高的標簽,我們需要在兩個詞中進行選擇,挑出其中更具有代表性的詞加入到用戶的新主題向量。當兩個詞相似度并不高時,則將兩個詞同時加入新主題向量,最終得到的新主題向量即融合后的用戶主題向量。算法描述流程如下:
如果某個詞在集合中出現(xiàn)的次數(shù)較多,則證明該詞更加為被大眾所接受,比如(爬山,登山),兩者的語義相似度很高,假如大部分用戶都是使用“爬山”來說明自己的愛好,則“爬山”一詞的詞頻會較“登山”一詞更高,因此文檔集合中,“爬山”一次能能更好地表示用戶的特征,應該給其賦予較高的權重,用來作為該文檔的代表。
對于在某個主題分布中的詞ti,他的權值表示為該詞在各個網(wǎng)絡中的權重之和,由于tf值對標簽的表示更直觀、簡潔。因此本文采用改進的tf值進行計算,公式如下:
其中wij是該詞ti在網(wǎng)絡j中原有的權值,nij是該詞在網(wǎng)絡j中的詞頻數(shù),nj表示網(wǎng)絡j的所有詞數(shù)量。
本發(fā)明通過空間向量模型來構建用戶最終的主題向量,將所有用戶的主題分布中的詞作為最終的融合主題空間:
ts={tag1,tag2,...,tags}
并將每個用戶的標簽映射到融合主題空間中,得到每個用戶的主題向量:
u={weight1,weight2,...,weights}
s為融合主題空間的大小,weighti為第i個詞的權值。
1.對于一個新問題,需要篩選出曾經(jīng)回答過相關類似問題的人來作為推薦列表,因此本發(fā)明通過用戶歷史回答中的話題標簽數(shù)據(jù)進行篩選。每個問題的話題標簽數(shù)量為1至5個,對于某個標簽,用戶在該話題標簽下的回答次數(shù)多少能反映出用戶對該話題相關問題的感興趣程度。用戶回答某個話題標簽越多,則用戶對該話題的興趣度越高。
2.對于通過篩選后的用戶,需要計算其對新問題的興趣度。對于用戶來說,其回答過的問題一定程度上就是其對某個問題領域的興趣體現(xiàn),因此本發(fā)明通過用戶在社區(qū)中的歷史回答數(shù)據(jù)來構建用戶的興趣模型。
本發(fā)明將知乎-微博的共同用戶與非共同用戶分別進行建模,得到各自的主題模型,步驟如下:
1)對所有知乎用戶的歷史問答數(shù)據(jù)處理得到用戶分詞向量,構建每個用戶主題標簽向量rz。
2)提取其中關聯(lián)微博的用戶集合,使用3.3.2節(jié)的算法構建共同用戶的微博主題標簽向量rw。
3)通過3.4節(jié)提出的標簽融合算法,對共同用戶的知乎主題標簽rz和微博主題標簽rw進行融合,得到融合主題標簽空間ts及共同用戶的融合主題向量u。
4)統(tǒng)一維度,將非共同用戶的主題標簽同樣映射到標簽空間ts中,得到主題向量u′。
對于一個新問題q,用戶對其進行回答的興趣度可以通過該問題的內(nèi)容特征與用戶歷史回答的主題特征匹配程度來表示,即該用戶主題標簽與問題標簽的相似度,我們將其定義為sim(u,q)。
3.對于用戶回答問題的能力及專業(yè)程度我們通過用戶歷史回答得到的評價來進行評判。在知乎網(wǎng)絡中,用戶的回答會得到其他用戶的“贊同”或“反對”,在同一問題下,用戶得到的贊同數(shù)越多,通常能表示用戶對該問題發(fā)表的觀點更加受到認可,回答的質(zhì)量更高。因此我們通過用戶u歷史回答的平均得贊數(shù)iu來對用戶進行能力度的評判:
在問答網(wǎng)絡中,熱門問題通常會得到更多人的關注,部分回答質(zhì)量不高的答案也可能會得到很多贊,甚至比某些冷門問題下的高質(zhì)量答案得到的贊更多。因此,需要消除問題熱度帶來的得贊數(shù)差別。
4.在一個問答網(wǎng)絡中,用戶的權威度也會體現(xiàn)其回答問題的能力。網(wǎng)絡中影響力大的用戶普遍具有獨特的素質(zhì)、知識涵養(yǎng)及專業(yè)性,因此才能得到整個網(wǎng)絡社區(qū)的認可。于是我們同樣需要考慮用戶在網(wǎng)絡中的影響力作為專家推薦的因素。
對于專家用戶中的跨網(wǎng)絡用戶,我們需要綜合考慮其在知乎和微博社區(qū)中的影響力。在微博社交網(wǎng)絡中具有較強的“關注-粉絲”關系,而且微博中的大v對信息傳播具有重要意義,相關的影響力研究較多。所以本文結合微博網(wǎng)絡對共同用戶進行影響力分析。
如果單純使用知乎數(shù)據(jù)建立關注網(wǎng)絡,構建的用戶網(wǎng)絡稀疏,且不完整。因此我們?nèi)诤嫌脩舻奈⒉╆P注關系,來豐富用戶的關注網(wǎng)絡。
如果用戶ui在知乎和微博同時關注用戶uj,則該用戶的受關注程度是跨網(wǎng)絡的,比單一網(wǎng)絡中的關注更強。但在傳統(tǒng)的pagerank中,并不考慮邊的權值,因此無法區(qū)分出該條邊是從單一網(wǎng)絡生成還是跨網(wǎng)絡生成。因此,本發(fā)明改進pagerank算法,設定其中融合邊的權值為:
于是得到有向圖g′,如圖3。