最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

大數(shù)據(jù)查詢推薦方法及其系統(tǒng)與流程

文檔序號:11251739閱讀:701來源:國知局
大數(shù)據(jù)查詢推薦方法及其系統(tǒng)與流程

本發(fā)明涉及數(shù)據(jù)處理技術領域,尤其涉及一種大數(shù)據(jù)查詢推薦方法及其系統(tǒng)。



背景技術:

大數(shù)據(jù)的分析和處理已經(jīng)成為企業(yè)重要的it能力。因為大數(shù)據(jù)的體量大、速度快、種類多,具有大量異構非結構化數(shù)據(jù),使得大數(shù)據(jù)分析處理后的利用也存在巨大的困難。

傳統(tǒng)數(shù)據(jù)分析的結果,可以很方便地通過查詢這一服務得到利用,而在大數(shù)據(jù)的場景下,簡單的查詢目的會帶來大量無關的結果,導致用戶無法通過查詢得到想要的結果。

造成上述大數(shù)據(jù)查詢困難的主要原因在于用戶很難精確的描述自己的查詢目的,對于查詢目的的限定或者陳述過于寬松,導致無法過濾出有效的查詢結果。由于查詢結果寬泛,導致用戶在查詢操作后依然要處理大量無關信息。因此,為了降低這些處理操作,和電子商務領域的平臺商品推薦機制一樣,在大數(shù)據(jù)的用戶查詢過程中,也可以使用推薦的方式,幫助用戶快速篩選出有效的查詢得到想要的結果。

常規(guī)的推薦系統(tǒng),比如電子商務領域的商品推薦系統(tǒng),會基于產(chǎn)品的內(nèi)容或特性進行匹配和推薦。但由于大數(shù)據(jù)查詢本身難以描述不具備實物商品的特性。因此,查詢操作之間無進行商品匹配那樣的對比。

雖然一些搜索引擎使用的查詢推薦過程通常和時下流行的主題進行匹配,但大部分企業(yè)系統(tǒng)無法達到搜索引擎系統(tǒng)的運算能力,也無法得到除企業(yè)自身專注領域之外的數(shù)據(jù),從而無法對流行主題進行提取。

企業(yè)的數(shù)據(jù)查詢系統(tǒng)自身維護著大量查詢?nèi)罩?即查詢的歷史記錄),用戶在提交查詢請求后,日志會記錄對結果進行的反饋操作如點擊、修改關鍵字等,如查詢結果符合用戶預期,則用戶會采納相應的資料。

相關的研究中,有的對比用戶反饋操作正負性,但正負反饋的界定難以明確,且有些方法要配合相應的硬件設備,難以應用,也有的參照搜索引擎的做法,推測用戶興趣點,但搜索引擎的這一做法僅僅改善了用戶對其界面的偏好和使用體驗,并沒有實現(xiàn)大數(shù)據(jù)查詢過程中的有效推薦。

因此,現(xiàn)有技術還有待發(fā)展。



技術實現(xiàn)要素:

鑒于上述現(xiàn)有技術的不足之處,本發(fā)明的目的在于提供大數(shù)據(jù)查詢推薦方法及其系統(tǒng),旨在解決現(xiàn)有技術中大數(shù)據(jù)查詢過程中,推薦效果不佳的問題。

為了達到上述目的,本發(fā)明采取了以下技術方案:

一種大數(shù)據(jù)查詢推薦方法,其中,所述方法包括:

通過用戶查詢請求的歷史記錄,構建用戶查詢反饋操作模型;

輸出與用戶查詢反饋操作對應的集合,所述集合的元素為權重最高的前k個主題詞集合;

根據(jù)所述主題詞集合的權重,計算查詢請求的主題詞集合之間相似性的標準差;

對所述歷史記錄中的用戶查詢請求的標準差進行聚類,形成若干個查詢概念;

獲取用戶查詢請求并確定與所述用戶查詢請求匹配的所述查詢概念;

將匹配的查詢概念的聚類中心以及與聚類中心距離最小的前k個查詢推薦給用戶。

所述的方法,其中,所述構建用戶查詢反饋操作模型,具體包括:

將用戶查詢反饋操作劃分為若干個隊列;

將一個隊列中每次查詢反饋操作相關的資料集組合為主題詞集合;

計算主題詞集合中的主題詞在一個隊列中對應的全部資料集中的權重;

輸出與所述隊列對應的集合及其權重。

所述的方法,其中,所述計算主題詞集合中的主題詞在一個隊列中對應的全部資料集中的權重,具體包括:

基于詞頻統(tǒng)計,通過如下算式計算所述權重:

其中,為所述權重,對應資料集的主題詞的權重,為qi所有子集構成的集合,qi={f1,f2,...,fj,…}為一個隊列,其中,fi為用戶i的第j次反饋操作。

所述的方法,其中,所述根據(jù)所述主題詞集合的權重,計算查詢請求的主題詞集合之間相似性的標準差,具體包括:

通過計算主題詞之間的相似性,獲得兩次查詢請求對應的主題詞集合之間相似性的標準差;

用所述標準差表示兩次查詢請求的相似性。

所述的方法,其中,所述計算主題詞之間的相似性,具體包括:

通過如下算式計算所述主題詞集合之間的相似性:

其中,分別為第一和第二主題詞集合,分別為屬于第一主題詞集合的主題詞和屬于第二主題詞集合的主題詞的權重。

一種大數(shù)據(jù)查詢推薦系統(tǒng),其中,所述系統(tǒng)包括:

模型構建模塊,用于通過用戶查詢請求的歷史記錄,構建用戶查詢反饋操作模型;以及輸出與用戶查詢反饋操作對應的集合,所述集合的元素為權重最高的前k個主題詞集合;

吻合度計算模塊,用于根據(jù)所述主題詞集合的權重,計算查詢請求的主題詞集合之間相似性的標準差;

匹配模塊,用于對所述歷史記錄中的用戶查詢請求的標準差進行聚類,形成若干個查詢概念;獲取用戶查詢請求并確定與所述用戶查詢請求匹配的所述查詢概念;將匹配的查詢概念的聚類中心以及與聚類中心距離最小的前k個查詢推薦給用戶。

所述的系統(tǒng),其中,所述模型構建模塊具體用于:將用戶查詢反饋操作劃分為若干個隊列;將一個隊列中每次查詢反饋操作相關的資料集組合為主題詞集合;計算主題詞集合中的主題詞在一個隊列中對應的全部資料集中的權重;輸出與所述隊列對應的集合及其權重。

所述的系統(tǒng),其中,所述模型構建模塊具體用于:基于詞頻統(tǒng)計,通過如下算式計算所述權重:

其中,為所述權重,對應資料集的主題詞的權重,為qi所有子集構成的集合,qi={f1,f2,…,fj,…}為一個隊列,其中,fi為用戶i的第j次反饋操作。

所述的系統(tǒng),其中,所述吻合度計算模塊具體用于:通過計算主題詞之間的相似性,獲得兩次查詢請求對應的主題詞集合之間相似性的標準差;用所述標準差表示兩次查詢請求的相似性。

所述的系統(tǒng),其中,所述模型構建模塊具體用于:通過如下算式計算所述主題詞集合之間的相似性:

其中,分別為第一和第二主題詞集合,分別為屬于第一主題詞集合的主題詞和屬于第二主題詞集合的主題詞的權重。

有益效果:本發(fā)明提供的大數(shù)據(jù)查詢推薦方法及其推薦系統(tǒng),通過構建用戶查詢反饋操作模型,對非結構化的日志數(shù)據(jù)進行分析,并通過查詢請求的相似性,有效的將相關的查詢結果推薦給用戶,克服了現(xiàn)有查詢推薦方法難以區(qū)分用戶正負反饋,無法進行查詢間特性對比,導致無法有效進行查詢推薦的弊端,對于解決查詢海量數(shù)據(jù)過程中的查詢推薦這樣的復雜問題具有較好的效果。

附圖說明

圖1為本發(fā)明實施例提供的大數(shù)據(jù)查詢推薦方法的方法流程圖;

圖2為本發(fā)明實施例提供的大數(shù)據(jù)查詢推薦系統(tǒng)的功能框圖。

具體實施方式

本發(fā)明提供一種大數(shù)據(jù)查詢推薦方法及其推薦系統(tǒng)。為使本發(fā)明的目的、技術方案及效果更加清楚、明確,以下參照附圖并舉實施例對本發(fā)明進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

如圖1所示,為本發(fā)明實施例提供的一種大數(shù)據(jù)查詢推薦方法。所述方法包括如下步驟:

100:通過用戶查詢請求的歷史記錄,構建用戶查詢反饋操作模型。所述用戶查詢反饋操作模型(uqfl模型)是根據(jù)用戶的查詢歷史學習獲得的分析結果。該歷史記錄可以是用戶查詢?nèi)罩镜臄?shù)據(jù)。

200:輸出與用戶查詢反饋操作對應的集合,所述集合的元素為權重最高的前k個主題詞集合。所述用戶查詢反饋操作模型的輸出為一個包含了若干主題詞及其權重的集合。

具體的,所述用戶查詢反饋操作模型的構建及計算分析過程如下:

首先,將用戶查詢反饋操作劃分為若干個隊列。設qi={f1,f2,…,fj,…}表示包含了某個用戶在一次查詢過程中的多次反饋操作的隊列。其中,fi為用戶i的第j次反饋操作。該隊列的劃分過程可以依據(jù)一段時間內(nèi)同一個用戶的反饋操作的時間先后進行升序排列。

然后,將其中每次查詢反饋操作fi相關的資料集組合為一個主題詞集合其中,為資料集的主題詞。所述資料集指與用戶查詢結果的條目對應的資料內(nèi)容的集合。

其次,可以基于詞頻統(tǒng)計的方式,計算主題詞集合中的主題詞在同一個用戶的某次查詢請求中,所有的反饋操作對應的全部資料集中的權重

更具體的,該權重通過算式(1)計算所述權重:

其中,對應資料集的主題詞的權重,為qi所有子集構成的集合。而可以通過算式(2)計算獲得:

其中,

在算式(2)中,docj為操作fi對應的資料集dfi中的元素。di為一次查詢請求中所有反饋操作的資料集的總集,wfj為在docj中的詞頻。

經(jīng)過上述分析計算后,對于查詢請求日志的相關數(shù)據(jù)的分析輸出結果為:與所述隊列對應的集合w={w1,w2,...,wi}及其權重,其中,所述集合的元素為權重最高的前k個主題詞集合。

300:根據(jù)所述主題詞集合的權重,計算查詢請求的主題詞集合之間相似性的標準差。推薦的過程可以依據(jù)多次查詢請求之間的目的吻合度。在本實施例中,使用相似性計算的方法來表示兩次查詢請求之間目的的吻合程度或者相似性。

具體的,首先可以通過算式(3)計算兩個主題詞之間的相似性:

其中,分別為第一和第二主題詞集合,分別為屬于第一主題詞集合的主題詞和屬于第二主題詞集合的主題詞的權重。

兩次查詢請求reqm,reqn的主題詞集合間相似性的標準差ddev(reqm,reqn),通過算式(4)進行計算:

其中,n(wm)和n(wn)為兩次查詢請求的uqfl模型輸出的主題詞集合的集合長度。

在算式(4)中,ssimilar(wm,wn)為uqfl模型輸出的兩個主題詞集合wm和wn之間的相似度。分別為根據(jù)所述uqfl模型得到的wm和wn中的主題詞在各自查詢操作過程上全部資料集中的權重。

400:對所述歷史記錄中的用戶查詢請求的標準差進行聚類,形成若干個查詢概念。以上述查詢請求之間的相似性ddev(reqm,reqn)作為衡量查詢請求距離的標準,可以對日志或者歷史記錄中的用戶查詢請求進行聚類。聚類具體可以采用例如層次聚類法等不確定聚類中心的方法完成。

獲得聚類結果后,可以將各個簇作為一個查詢概念t。在每個查詢概念ti下,均包含多次通過學習日志或者歷史記錄的查詢請求得到的主題詞集合wtotal包括的,本概念下全部的主題詞。通過對這些主題詞的出現(xiàn)頻率進行排序,可以獲得排序好的主題詞集合

500:獲取用戶查詢請求并確定與所述用戶查詢請求匹配的所述查詢概念。將新輸入的用戶查詢請求的關鍵字與各個查詢概念下的主題詞集合進行匹配,可以選取關鍵字在主題詞集合中排名最前的概念tj作為匹配的查詢概念。

600:將匹配的查詢概念的聚類中心以及與聚類中心距離最小的前k個查詢推薦給用戶。亦即將選中的匹配查詢概念的聚類中心reqcenter以及與聚類中心相似度ddev(reqcenter,reqm)最小的前k個查詢作為推薦結果,向用戶推薦。

如圖2所示,為本發(fā)明實施例提供的一種大數(shù)據(jù)查詢推薦系統(tǒng)。所述系統(tǒng)包括:模型構建模塊100,用于通過用戶查詢請求的歷史記錄,構建用戶查詢反饋操作模型;以及輸出與用戶查詢反饋操作對應的集合,所述集合的元素為權重最高的前k個主題詞集合;吻合度計算模塊200,用于根據(jù)所述主題詞集合的權重,計算查詢請求的主題詞集合之間相似性的標準差以及匹配模塊300,用于對所述歷史記錄中的用戶查詢請求的標準差進行聚類,形成若干個查詢概念;獲取用戶查詢請求并確定與所述用戶查詢請求匹配的所述查詢概念;將匹配的查詢概念的聚類中心以及與聚類中心距離最小的前k個查詢推薦給用戶。

具體的,所述模型構建模塊100具體用于:將用戶查詢反饋操作劃分為若干個隊列;將一個隊列中每次查詢反饋操作相關的資料集組合為主題詞集合;計算主題詞集合中的主題詞在一個隊列中對應的全部資料集中的權重;輸出與所述隊列對應的集合及其權重。

更具體的,所述模型構建模塊具體用于:基于詞頻統(tǒng)計,通過如下算式計算所述權重:

其中,為所述權重,對應資料集的主題詞的權重,為qi所有子集構成的集合,qi={f1,f2,...,fj,...}為一個隊列,其中,fi為用戶i的第j次反饋操作。

在一些實施例中,所述吻合度計算模塊200具體用于:通過計算主題詞之間的相似性,獲得兩次查詢請求對應的主題詞集合之間相似性的標準差;用所述標準差表示兩次查詢請求的相似性。

具體的,所述模型構建模塊具體用于:通過如下算式計算所述主題詞集合之間的相似性:

其中,分別為第一和第二主題詞集合,分別為屬于第一主題詞集合的主題詞和屬于第二主題詞集合的主題詞的權重。

可以理解的是,對本領域普通技術人員來說,可以根據(jù)本發(fā)明的技術方案及本發(fā)明構思加以等同替換或改變,而所有這些改變或替換都應屬于本發(fā)明所附的權利要求的保護范圍。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1