專利名稱:用于構建用戶模型的改進的GuTao法的制作方法
技術領域:
本發(fā)明涉及一種改進的GuTao法,用于構建用戶模型,屬于個性化信息服務領域。
技術背景
個性化信息服務包括用戶建模、項目匹配和個性化推薦輸出三個部分。構建用戶模型是個性化信息服務的基礎。在個性化信息服務研究早期,用戶建模技術并未得到重視。 研究工作重點在于個性化信息服務的具體技術上,如用戶聚類技術、推薦技術、信息檢索技術等,用戶建模技術只是這些研究中的附屬。隨著研究的深入,研究者逐漸意識到個性化信息服務的質量不僅取決于具體的實現(xiàn)技術,還取決于用戶興趣和偏好的可計算描述,即構建用戶模型的質量。
傳統(tǒng)的用戶模型構建方法主要是基于統(tǒng)計學的,采用主題詞或加權的關鍵詞向量等表示用戶模型。通過對用戶瀏覽記錄、訪問歷史進行概率分析,獲得用戶的興趣模型。這種方法理論成熟,使用相對簡單,但存在缺乏語義、興趣度粒度大的缺點。
隨著語義技術地發(fā)展,本體作為概念化的模型,具有強大的語義擴展和推理能力。 利用本體語義上的優(yōu)勢,將用戶建模技術和本體結合起來構建基于本體的用戶模型是用戶建模技術的主要發(fā)展趨勢。發(fā)明內容
本發(fā)明基于本體構建用戶模型,在具體的構建方法上提出了改進的GuTao法。 GuTao法能夠半自動的構建領域本體,自動生成形式背景并消除概念間的冗余,但存在著不能處理多值屬性的缺陷。本發(fā)明提出了以興趣度為權值,作為多種屬性向單值屬性轉換的依據(jù),解決了 GuTao法不能處理多值屬性的問題,實現(xiàn)了對GuTao法的改進。
本發(fā)明提出了將興趣度作為多值屬性向單值屬性的轉換依據(jù),在基本興趣度公式的基礎上推導出復合的興趣度公式。下面將介紹興趣度的基本公式以及根據(jù)需要的推導的公式。
1.興趣度的概念
興趣度anterestingness)是用來衡量用戶對本體中的某概念的感興趣程度的一個度量指標。它主要是面向用戶模型的使用者的,用戶的興趣描述越具體,越有實際價值。
2.基本的興趣度公式
興趣度計算公式主要有以下三種
(1) I (Ci)表示對于概念Ci感興趣程度,形如公式1。
/(Cd = log -—. X d. O公式丄log log length
其中,time表示一個用戶用于瀏覽一個給定網(wǎng)頁的時間。length指網(wǎng)頁的長度 (如字節(jié)數(shù)等)。以HcbCi)表示網(wǎng)頁與概念的匹配強度,該值是一個頁面特征化過程的一個結果。(2)Frequency (Ci)通過用戶檢索過程中與概念Ci相關的檢索數(shù)Q(Ci)與檢索總 次數(shù)Q的比值來反映用戶對概念的感興趣程度。Frequency{Ci)=ジ、'丨公式 2其中Frequency(Ci)反映用戶對本體中某個概念Ci的感興趣程度。Q(Ci)是用戶 對概念Ci檢索的次數(shù),Q表示用戶檢索的總次數(shù)。(S)Clarity(Ci)通過清晰度反映了用戶提出的檢索反映其自身興趣的準確性, 通常當用戶對于自己要查詢的事物越是不了解,他就越傾向于使用較為抽象的概念。具體 公式為ClarityiCi) = {numAttr{C^) +1).-——-—~^公式 3
numSub し oncems、し i) +1其中IiumAttr(Ci)為概念Ci的屬性數(shù),numSubConcepts (Ci)為其子概念數(shù)。3.公式的總結與推導上述的三個公式是比較常用的興趣度計算公式,公式1需要獲得檢索網(wǎng)頁的網(wǎng)頁 大小,同時需要獲得網(wǎng)頁與概念的匹配強度,這兩個字段信息在本發(fā)明基于本體的用戶模 型構建中是無關信息,因此不選擇此公式作為本發(fā)明興趣度的計算公式。公式2和公式3 從檢索頻率和清晰度兩個不同的方面反映用戶的興趣,并且所需字段信息在本發(fā)明的構建 方法下都可以獲得,因此,本發(fā)明使用公式2和3作為興趣度公式,并借助概率論乘法公式 的思想得到復合的興趣度公式。(1)本發(fā)明提出了復合的興趣度計算公式,即本發(fā)明的興趣度公式是檢索頻率和 清晰度公式的乘積,形如公式4。Irate (Ci) = Frequency (Ci). Clarity (Ci)公式 4(2)同時根據(jù)本發(fā)明中具體的數(shù)據(jù)需要,對公式2進行推導,用戶檢索的頻率定義 為用戶檢索某一網(wǎng)頁的URL次數(shù)與用戶檢索URL總次數(shù)的比值,形如公式5。Frequency{C )=玄 Frequency^URLl)=厶 U 公式 5
/=1 /=1本發(fā)明采用的技術方案包括以下步驟■根據(jù)推導的復合興趣度公式對用戶信息預處理,獲取單值屬性背景;■在單值屬性背景基礎上基于GuTao法生成用戶模型。獲得單值屬性背景采用以下方法首先,用爬蟲工具收集用戶信息;其次,計算概念的清晰度、概念的訪問頻率,然后計算興趣度值;最后,對所獲得的所有的興趣度值進行排序,獲得布爾關系,最終獲得單值屬性背
旦
Jjs ο本發(fā)明在獲得單值屬性背景下,基于GuTao法生成用戶模型,采用以下方法首先,將URLS (網(wǎng)址)作為對象、ATTRS (關鍵字)作為屬性構建領域本體。URLS 表示成本體中的類(Classes)、ATTRS表示成本體中的槽(Slots);其次,使用GuTao開發(fā)的插件半自動的對形式背景完善、擴充,轉化成概念格工具ConExp所要求的形式背景輸入格式。形式概念分析中的Context (上下文)、Objects (對象),Attributes (屬性)分別與領域本體的Ontology (本體),Classes (類),Slots (槽) 相對應;
最后,通過ConExp 建立概念格 D-Ontology = (CS (C),Ships),其中 CS(C)表示所有形式概念C的合集,Ships表示所有形式概念C的偏序關系的集合,并用OffL (網(wǎng)絡本體語言)語言存儲該用戶模型的信息。
本發(fā)明繼承了 GuTao法原有的優(yōu)點,在自動化程度、本體的形式化程度和可視化程度上仍具有優(yōu)勢。通過引入興趣度作為權值,實現(xiàn)形式背景的多值屬性向單值屬性轉變, 克服了 GuTao法只能處理單值屬性的缺陷。
圖1為本體的用戶模型構建流程
圖2為GuTao法流程圖
圖3為本發(fā)明的改進的GuTao算法框架圖
圖4為本發(fā)明的改進的GuTao法與GuTao法的比較具體實施方式
下面根據(jù)說明書附圖并結合實施對本發(fā)明的技術方案特點作進一步闡述。
本發(fā)明的技術方案主要有以下主要步驟
1、用戶信息的獲取與預處理
通過爬蟲工具ffeb-ΙΑ獲取用戶信息,包括搜索的關鍵字、進入/離開網(wǎng)頁時間、網(wǎng)頁的瀏覽數(shù)、網(wǎng)頁的停留時間與用戶的訪問軌跡等。
預處理信息,根據(jù)本發(fā)明中提出的復合興趣度公式4對獲取的用戶信息數(shù)據(jù)進行預處理,確定網(wǎng)頁是否含有用戶感興趣的關鍵字。
2、構建領域本體
對獲取的用戶信息采用發(fā)明內容中提出的初始的單值屬性背景的獲得方法進行預處理,通過本體建模工具Prot6g6進行本體構建。
3、改進的GuTao法構建形式背景與概念格
生成初始形式背景C。nt。1()gy 在步驟2構建的領域本體的基礎上,利用形式背景生成工具FCAView插件半自動的生成初始的形式背景C。nt。1()gy = (0,A, R)。
完善形式背景根據(jù)步驟1所得數(shù)據(jù)和步驟2所進行的處理的基礎上,對初始的形式背景進行擴充。
生成概念格在前兩步的基礎上利用GuTao自行開發(fā)的插件ConExp (將形式背景轉換成概念格的工具)自動生成概念格,即所要得到的用戶模型的領域本體D-Ontology =(CS(C),Ships)。
4、加入包含用戶信息的頭結點
將通過網(wǎng)絡爬蟲ffeb-ΙΑ收集到的能夠標識用戶唯一性的信息,如用戶的IP地址、 網(wǎng)站用戶的用戶名等信息,以及為了用戶模型更新需要的用戶對網(wǎng)站最后瀏覽時間等信息存入頭結點Head-Node中。在本發(fā)明的本體用戶模型中頭結點包含了用戶瀏覽的所有網(wǎng)絡URL資源的合集。
5、用網(wǎng)絡本體語言OffL描述用戶模型。
圖1是本發(fā)明用于構建本體的用戶模型流程,本體的用戶模型的構建又包括個性化信息收集、本體的模型表示、用戶模型更新和模型使用這樣幾個流程,本發(fā)明將用戶模型表示成形式背景下衍生的概念格的形式,構建成的概念格采用本體描述語言OffL表示。
具體實施方式
中涉及概念說明
1、用戶模型領域本體的形式背景C?!?br>
用戶模型的形式背景是一個包含用戶瀏覽網(wǎng)頁信息、檢索關鍵字信息和網(wǎng)頁與關鍵字布爾關系的三元組,記作C?!?= (0,A,R),其中0代表對象的集合,這里表示用戶瀏覽網(wǎng)址的URL。A代表網(wǎng)頁的屬性,即通過數(shù)據(jù)挖掘技術提取的網(wǎng)頁的關鍵字。R代表網(wǎng)頁與關鍵字的關系,在本發(fā)明中,R必須是布爾型的,即保證屬性必須是單值的。
對形式背景的三個要素作具體的說明。
(1)0是信息資源的所有對象集合
0 = (URL1, URL2,. . . URLj。URL (Uniform Resource Locator)稱為統(tǒng)一資源定位符,它是因特網(wǎng)上描述信息資源的字符串,用于各種Web客戶程序和服務器上。URL以統(tǒng)一的格式描述各種信息資源,包括文件、服務器的地址和目錄等。URL的格式由三部分組成 協(xié)議或服務方式、資源所在的主機IP地址、資源的具體地址。其中第一部分和第二部分用 “//”隔開,第二部分和第三部分以“/”隔開。第一部分和第二部分不可缺少,而第三部分可以省略。URL的缺點是當信息資源的存放地點發(fā)生改變時,必須對URL做出相應的改變。
(2)A是網(wǎng)頁屬性的集合
A = (Attr1, Attr2, · · · Attrn),Attr 是英文屬性 Attribute 的縮寫。主要是指網(wǎng)頁的關鍵字信息,表示網(wǎng)頁的屬性,可以通過Web網(wǎng)頁挖掘獲取。傳統(tǒng)的用戶模型在獲得關鍵詞的同時,將各個關鍵詞孤立的處理,詞語間的關系是正交的,不含語義信息。本發(fā)明基于本體的用戶模型充分考慮到了詞語間的語義關系,符合個性化信息服務信息找人的要求。例如,用戶的興趣為{足球,籃球,音樂,美食,旅游...},如果有相關的網(wǎng)頁其內容是有關世界杯的,但是用戶興趣模型中并未出現(xiàn)足球這個關鍵詞,因此,傳統(tǒng)的用戶模型就不會把這個網(wǎng)址推送給用戶。但根據(jù)常識,世界杯顯然是足球的一個子類或者說是一個實例,用戶很可能對這個信息有興趣,所以傳統(tǒng)的構建方法是不完善的、不能準確反映用戶的信息。 基于本體構建用戶模型進行檢索時,將用戶模型表示成形式背景下衍生的概念格,世界杯是足球的一子概念,用戶進行檢索時,會將包含子概念的網(wǎng)址推送給用戶。
(3) R是表示對象和屬性的關系
本發(fā)明主要是指網(wǎng)頁是否具備該關鍵詞,即每個URLi中是否具備關鍵字AttriG =1,. . .,n)。因本發(fā)明是采用改進的GuTao法進行構建用戶模型,所以R必須是布爾型的, 保證形式背景的屬性是單值的。本發(fā)明中使用復合的興趣度公式作為多值屬性向單值屬性轉化的依據(jù)。
2、用戶模型領域本體的形式概念C
領域本體的形式概念C(R)rmal Concept)是包含用戶共同對象的集合和共同屬性集合的二元組,形式化的表示為C = (URLS,ATTRS)。其中URLS是對象集0的冪集,稱為形式概念C的外延,是用戶信息所有屬性共同對象的集合。ATTRS是屬性集A的冪集,稱為概念C的內涵,使包含所有對象信息共同屬性的集合。
每一個概念C關于關系R是完備的,即滿足如下性質
· ATTRS= { URL O / VURL URLS ((ATTR, URL) R)}性質⑴
· URLS ={ ATTR ζ A / VATTR ζ ATTRS ((ATTR, URL) ζ R)}性質(2)
3、形式概念集CS (C)
形式背景C。nt。1()gy上所有單概念的集合構成本體的概念集,記作CS (C)。
4、用戶模型領域本體的子概念(Sub-Concept)和超概念(Super-Concept)
對于給定的兩個概念關系C1 = (URLS1, ATTRS1)和C2 = (URLS2, ATTRS2),如果 ATTRieATTRS1,那么這兩個詞間的概念關系存在偏序關系<,稱C1是C2的上位關系, C2是C1的下位關系,記作C1 <C2。C1和C2間的關系稱為泛-特化關系。如果在概念集 CS (C)中不存在另外的概念C3介于C1和C2之間,則稱C1和C2是直接泛化-特化關系,并且稱C1是C2的超概念,C2是C1的子概念。
5、用戶模型領域本體的同級概念(Same-Concept)
同級關系對于兩個概念C1 = (URLSnATTRS1)和 C2 = (URLS2, ATTRS2),如果 ATTRS1 不包含于ATTRS2, ATTRS2也不包含于ATTRS1,并且ATTRS1和ATTR&是同級語義,則稱C1和 C2是同級關系。
6、偏序關系的集合Siips
由形式概念集CS(C)中的形式概念C構成的直接泛化-特化關系的合集,稱為偏序關系的合集,記作Slips。
7、用戶模型領域本體的概念格D-Ontology
用戶模型領域本體是由形式背景C。nt。1()gy衍生下的概念格,記作D-Ontology = (CS(C),Ships),即本發(fā)明定義的用戶模型主要由兩部分組成,CS(C)所有形式概念的合集,Ships 所有形式概念的偏序關系的集合。
8、附加頭結點的領域本體的用戶模型^ser-Model)
基于已經(jīng)構建好的領域本體的基礎上,提出將用戶模型表示成附加頭結點的形式背景下衍生的概念格,即將用戶模型表示成由用戶基本信息和領域本體概念格的集合。使用領域本體中最為廣泛的“直接上下位”關系和“同級關系”,形成一個附加頭結點的形式背景下誘導的概念格的用戶模型。
具體的實施方法是在構建好的領域本體的基礎上,在用戶登錄系統(tǒng)的時候,為用戶提供一個興趣定點,然后將用戶所有的瀏覽行為屬性進行語義分析,用屬性中所包含的概念構造初始形式背景下衍生的概念格。最后將所構造的用戶模型呈現(xiàn)為用戶的個人信息和領域本體概念格的形式。
(1)頭結點概念 Head-node
Head-node = (URLS, User {Head-node, IpNumber})
用戶模型的頭結點是用戶模型的頂層結點,用來標識不同的用戶信息。其主要有兩部分組成,定義頭結點的對象是用戶訪問所有網(wǎng)頁URL的合集,用戶頭結點的屬性包括用戶頭結點信息、用戶的IP地址等用戶信息。
( 用戶模型的概念集UC
UC = (URLS, {ATTRS, Irate(Ci)D
用戶模型的形式概念集的對象集仍然是用戶訪問的所有URL信息集。屬性集由關鍵詞的屬性集和用戶對某一關鍵詞概念的興趣度兩部分組成。
(3)領域本體的用戶模型^ser-Model)
領域本體的用戶模型表示成一個附加頭結點的領域本體
User-Model = (Head-node, D-Ontology, Irate(Ci))
領域本體的用戶模型主要有三部分組成標識用戶信息的頭結點信息、資源的領域本體和用戶對關鍵詞單概念的興趣度。
具體實施方式
中改進的GuTao法的流程和具體算法
1、改進的GuTao法流程
圖2是改進的GuTao法流程圖。其具體步驟如下
(1)手動或應用自然語言處理技術從領域文本中獲得領域概念和屬性。
(2)用建模工具I^rotSgS進行本體構建,用類(Classes)、槽(Slots)和分面 (facets)來表示領域本體。
(3)使用由GuTao開發(fā)的Prot6g6工具插件產生形式背景,該插件可以通過本體與FCA (形式概念分析)的對應關系自動得到形式背景,并將形式背景轉化成概念格工具 ConExp (將形式背景轉換成概念格的工具)所要求的形式背景輸入格式。其中,形式概念分析中的上下文(Context)、對象(Objects)、屬性(Attributes)、多值屬性分別與領域本體的本體(Ontology)、類、槽、分面相對應。
(4)使用ConExp建立概念格,應用ConExp從FcaTab (自動獲取形式背景的工具) 輸出的形式背景建立與該形式背景同構的概念格。領域本體開發(fā)人員和領域專家在得到的概念格中可以選擇需要的而原先沒有的一些概念和關系,將其添加到本體中去。
(5)重復(3) (4)步,直到滿意為止。
2、改進的GuTao法算法
圖3是本發(fā)明的改進的GuTao法的算法框架圖。算法主要步驟分成兩部分。
步驟一根據(jù)推導的復合興趣度公式對用戶信息預處理,獲取單值屬性背景。具體算法如下
輸入網(wǎng)絡爬蟲收集的用戶信息
輸出初始的單值形式背景C。nt。1()gy = (0,A, R)
步驟
(l)for each Ci e CS (C)//計算概念的清晰度
(2) Clarity (Ci) = O
⑶ IiumAttr(Ci) = Count (A) //Ci 屬性的個數(shù)
(4) numSubConcepts (Ci) = Sum (SubConcepts (A)) //Ci 子概念的個數(shù)
(S)Clarity(Ci) = (numAttr (Ci) +1) / (numSubConcepts (Ci) +1)
(B)Frequency(Ci) = O//計算概念訪問頻率
(7) for each URLi e URLS
權利要求
1.一種用于構建用戶模型的改進的GuTa0法,其特征在于包括以下步驟1)通過爬蟲工具收集用戶信息,根據(jù)復合興趣度公式 Ira^(G) = F^m^X) Oa^y(O)刈用戶信息預處理,獲取單值屬性背景,其中,Ira te (C1)表示對于概念G的感興趣程度,F(xiàn)requency (C1)表示對概念G的檢索頻率, Clarity {Q表示概念Ci的清晰度;2)在單值屬性背景基礎上基于GuTao法生成用戶模型。
2.根據(jù)權利要求1所述的用于構建領域本體的改進的GuTao法,其特征在于,所述步驟 1)進一步包含以下步驟11)根據(jù)收集的用戶信息計算概念的清晰度、概念訪問頻率,進一步計算概念的興趣度值;12)對所獲得的興趣度值進行排序,獲得布爾關系,最終獲得單值屬性背景。
3.根據(jù)權利要求1或2所述的用于構建領域本體的改進的GuTao法,其特征在于,所述步驟幻進一步包含以下步驟21)將URLS作為對象、ATTRS作為屬性構建領域本體,URLS表示成本體中的類、ATTRS 表示成本體中的槽;22)使用GuTao開發(fā)的插件半自動的對形式背景完善、擴充,轉化成概念格工具ConExp 所要求的形式背景輸入格式,形式概念分析中的Context、Objects、Attributes分別與本體的 Ontology、Classes、Slots 相對應;23)通過ConExp建立概念格D-Ontology=(CS (C),Ships),其中CS (C)表示所有形式概念C的合集,Ships表示所有形式概念C的偏序關系的集合,并用OWL語言存儲該用戶模型的信息。
全文摘要
本發(fā)明公開一種用于構建用戶模型的改進的GuTao法,屬于個性化信息服務領域。該方法通過引入興趣度作為權值,實現(xiàn)形式背景的多值屬性向單值屬性轉變,克服了GuTao法只能處理單值屬性的缺陷,該方法主要步驟包括1)根據(jù)推導的復合興趣度公式對用戶信息預處理,獲取單值屬性背景;2)在單值形式背景基礎上基于GuTao法生成用戶模型。本發(fā)明除了具備GuTao法本身具有的能夠從領域概念和關系中自動地獲得形式背景,實現(xiàn)半自動地構建領域本體和自動消除分類結構中概念的冗余得到所需概念以外,最大的改進在于能夠處理多值屬性,有了將多值屬性轉化成單值屬性的依據(jù)。
文檔編號G06F17/30GK102495844SQ20111036104
公開日2012年6月13日 申請日期2011年11月15日 優(yōu)先權日2011年11月15日
發(fā)明者于天樞, 許國艷 申請人:河海大學