本發(fā)明屬于時(shí)空數(shù)據(jù)挖掘、深度學(xué)習(xí),涉及一種基于擴(kuò)散模型的興趣點(diǎn)簽到序列生成方法。
背景技術(shù):
1、簽到序列生成任務(wù)屬于“時(shí)空數(shù)據(jù)生成”研究領(lǐng)域,現(xiàn)有公布的時(shí)空數(shù)據(jù)生成的技術(shù)方案包括以下幾種,其缺點(diǎn)也進(jìn)行闡述:
2、(1)一種基于用戶(hù)偏好與時(shí)空上下文信息的下一個(gè)poi推薦方法(cn117194763a),獲取用戶(hù)簽到記錄進(jìn)行預(yù)處理,利用低維稠密向量對(duì)興趣點(diǎn)及各種附屬信息進(jìn)行向量嵌入,構(gòu)建并訓(xùn)練基于用戶(hù)偏好與時(shí)空上下文信息的下一個(gè)興趣點(diǎn)推薦模型,輸入用戶(hù)的長(zhǎng)期簽到序列和短期簽到序列,生成k個(gè)興趣點(diǎn),推薦給用戶(hù);但該方法只能生成用戶(hù)的下一個(gè)興趣點(diǎn),而不能生成完整的興趣點(diǎn)簽到序列,雖然該方法引入了時(shí)空上下文信息來(lái)提高推薦準(zhǔn)確度,但未充分考慮興趣點(diǎn)簽到序列中的時(shí)空相關(guān)性,這可能導(dǎo)致推薦結(jié)果與用戶(hù)實(shí)際情況不符。
3、(2)一種人員活動(dòng)軌跡及落腳點(diǎn)的自動(dòng)生成方法及系統(tǒng)(cn111985452a),包括:確定待分析人員信息以及待分析人員及其關(guān)系人名下的車(chē)輛信息;基于所述車(chē)輛在設(shè)定時(shí)間段內(nèi)經(jīng)過(guò)的卡口信息,確定待分析人員車(chē)輛在設(shè)定時(shí)間段內(nèi)的第一活動(dòng)軌跡;基于所述活動(dòng)軌跡確定待分析人員的行程,以及所有行程中的關(guān)鍵點(diǎn)信息;根據(jù)所述關(guān)鍵點(diǎn)位置信息確認(rèn)待分析人員的落腳點(diǎn)信息。該方法依賴(lài)于車(chē)輛信息和已有的場(chǎng)所和設(shè)備,可能導(dǎo)致對(duì)某些人員的活動(dòng)軌跡和落腳點(diǎn)信息無(wú)法準(zhǔn)確生成,會(huì)受到數(shù)據(jù)不完整和隱私問(wèn)題的影響;同時(shí),方法主要基于車(chē)輛經(jīng)過(guò)的卡口信息來(lái)確定活動(dòng)軌跡,對(duì)于沒(méi)有車(chē)輛或車(chē)輛未經(jīng)過(guò)卡口的情況下可能無(wú)法生成準(zhǔn)確信息。
4、(3)一種車(chē)輛軌跡生成方法(cn110223515b)提出一種基于gan的車(chē)輛軌跡生成方法,步驟1,數(shù)據(jù)處理階段,所述數(shù)據(jù)處理階段為首先對(duì)軌跡數(shù)據(jù)和地圖數(shù)據(jù)進(jìn)行預(yù)處理;步驟2,數(shù)據(jù)生成模型階段,所述數(shù)據(jù)生成模型階段包括生成路段軌跡生成模型和行程軌跡生成模型;步驟3,數(shù)據(jù)集生成階段,所述數(shù)據(jù)集生成階段為對(duì)加載所述路段軌跡生成模型和行程軌跡生成模型得到軌跡數(shù)據(jù)。由于簽到序列的長(zhǎng)度是不固定的,該方法難以有效處理不同長(zhǎng)度的軌跡數(shù)據(jù)。該方法需要固定長(zhǎng)度的輸入數(shù)據(jù),因此在處理長(zhǎng)度不一的軌跡數(shù)據(jù)時(shí),可能需要進(jìn)行填充或截?cái)嗖僮鳌H欢?,這些操作可能會(huì)引入額外的噪音,影響生成軌跡的準(zhǔn)確性和質(zhì)量;另外,由于gan訓(xùn)練的極端不穩(wěn)定性,導(dǎo)致其生成結(jié)果可能存在不真實(shí)或不合理的情況。
5、綜上,已公布的技術(shù)方案中,未充分考慮興趣點(diǎn)簽到序列中的時(shí)空相關(guān)性,依賴(lài)于已有的場(chǎng)所和設(shè)備,難以有效處理不同長(zhǎng)度的軌跡數(shù)據(jù),導(dǎo)致不能生成完整且高質(zhì)量的興趣點(diǎn)簽到序列。
6、無(wú)線網(wǎng)絡(luò)技術(shù)的發(fā)展使得個(gè)體移動(dòng)事件,能夠被高精度地檢測(cè),將這些記錄稱(chēng)為興趣點(diǎn)簽到(check-in)序列,為充分理解城市人口流動(dòng)性提供了可行性,通過(guò)提取個(gè)體移動(dòng)事件的高層語(yǔ)義,可應(yīng)用于興趣地點(diǎn)推薦、商業(yè)位置選擇、時(shí)間預(yù)測(cè)等下游任務(wù)。然而,直接利用現(xiàn)實(shí)生活的簽到序列來(lái)支持下游任務(wù)必然會(huì)引發(fā)隱私問(wèn)題,導(dǎo)致難以獲取關(guān)于人類(lèi)活動(dòng)的大規(guī)模公開(kāi)可用數(shù)據(jù)。
7、數(shù)據(jù)預(yù)處理部分的具體細(xì)節(jié):源數(shù)據(jù)集介紹:
8、堪培拉大學(xué)(canberra)無(wú)線網(wǎng)絡(luò)使用數(shù)據(jù)集。
9、(1)數(shù)據(jù)集內(nèi)容
10、本數(shù)據(jù)集記錄了堪培拉大學(xué)師生連接校園免費(fèi)無(wú)線網(wǎng)絡(luò)的連接位置信息、連接帶寬和連接時(shí)長(zhǎng)等重要的能夠反映用戶(hù)行為的簽到序列數(shù)據(jù),數(shù)據(jù)以csv文件的形式存儲(chǔ),其中主要數(shù)據(jù)字段如下:
11、canberra_checkins.csv
12、該文件記錄了每一條用戶(hù)接入ap的記錄,包含接入地點(diǎn)信息、接入時(shí)間和接入時(shí)長(zhǎng)等。
13、
14、(2)數(shù)據(jù)集規(guī)模
15、下載到的數(shù)據(jù)集共包含215527條無(wú)線網(wǎng)絡(luò)接入記錄,進(jìn)行分類(lèi)后共對(duì)應(yīng)有4441個(gè)用戶(hù)和317個(gè)ap接入點(diǎn)。
16、
17、達(dá)特茅斯學(xué)院(dartmouth)無(wú)線網(wǎng)絡(luò)使用數(shù)據(jù)集。
18、(1)數(shù)據(jù)集內(nèi)容
19、本數(shù)據(jù)集記錄了達(dá)特茅斯學(xué)院學(xué)生無(wú)線網(wǎng)絡(luò)使用情況,涉及476個(gè)無(wú)線網(wǎng)絡(luò)接入點(diǎn),覆蓋達(dá)特茅斯學(xué)院161個(gè)建筑,數(shù)據(jù)以csv文件(二維表)形式存儲(chǔ),其中主要數(shù)據(jù)字段如下:
20、ap_locations.csv,該文件記錄了每一個(gè)ap(無(wú)線網(wǎng)絡(luò)接入點(diǎn))編號(hào)對(duì)應(yīng)的地理位置坐標(biāo)。
21、
22、[id].csv,該文件有若干,記錄每個(gè)用戶(hù)的ap接入記錄,存儲(chǔ)于名為“2001~2003”文件夾中,其中[id]為對(duì)應(yīng)用戶(hù)的編號(hào)。
23、
24、(2)數(shù)據(jù)集規(guī)模,下載到的數(shù)據(jù)集共包含623個(gè)ap接入點(diǎn)編號(hào)(此處包括部分含有缺失值的ap接入點(diǎn)數(shù)據(jù)),以及6202個(gè)用戶(hù),總的記錄條數(shù)共計(jì)193958條。
25、
26、weeplace數(shù)據(jù)集:
27、(1)數(shù)據(jù)集內(nèi)容,本數(shù)據(jù)集記錄了用戶(hù)在基于位置的社交平臺(tái)上進(jìn)行的簽到活動(dòng)。數(shù)據(jù)以csv文件的形式存儲(chǔ),其中主要字段如下:
28、weeplace_checkins.csv
29、
30、
31、(2)數(shù)據(jù)集規(guī)模,下載到的數(shù)據(jù)集共包含1097個(gè)ap接入點(diǎn)編號(hào)(此處包括部分含有缺失值的ap接入點(diǎn)數(shù)據(jù)),以及1432個(gè)用戶(hù),總的記錄條數(shù)共計(jì)3041596條。
32、
33、gowalla數(shù)據(jù)集:
34、(1)數(shù)據(jù)集內(nèi)容,本數(shù)據(jù)集與weeplace數(shù)據(jù)集相似,均為記錄基于位置的社交平臺(tái)上用戶(hù)進(jìn)行的簽到活動(dòng),數(shù)據(jù)以csv的形式存儲(chǔ),其中主要字段如下:
35、gowalla_checkins.csv
36、
37、(2)數(shù)據(jù)集規(guī)模,下載到的數(shù)據(jù)集共包含3028個(gè)ap接入點(diǎn)編號(hào)(此處包括部分含有缺失值的ap接入點(diǎn)數(shù)據(jù)),以及3286個(gè)用戶(hù),總的記錄條數(shù)共計(jì)2148575條。
38、
39、數(shù)據(jù)清洗過(guò)程:由于直接獲取的數(shù)據(jù)集中的記錄質(zhì)量不一,需要通過(guò)一系列清洗操作,剔除數(shù)據(jù)集中含空缺值的記錄,以及篩選具有高質(zhì)量簽到序列的用戶(hù),用于后續(xù)模型的訓(xùn)練。
40、所有數(shù)據(jù)集采取統(tǒng)一的處理流程,其中上述數(shù)據(jù)集公共的字段如下:
41、
42、數(shù)據(jù)過(guò)濾;
43、(1)刪去過(guò)濾后不包含軌跡點(diǎn)數(shù)據(jù)的用戶(hù)(即刪去了空的csv文件),得到了有效用戶(hù),即至少有1個(gè)軌跡點(diǎn)的用戶(hù);
44、(2)刪去了字段session_duration值小于3的數(shù)據(jù)(連接時(shí)長(zhǎng)小于3分鐘,認(rèn)定為無(wú)效的連接);
45、(3)刪去了字段avg_kbps值小于1的數(shù)據(jù)(小于1kbps的帶寬無(wú)法進(jìn)行正常的網(wǎng)絡(luò)通信,認(rèn)定為無(wú)效的連接)。
46、過(guò)濾后的數(shù)據(jù)均滿(mǎn)足session_duration值大于等于3,且avg_kbps值大于等于1。
47、數(shù)據(jù)去擾:將在2個(gè)ap連接點(diǎn)間來(lái)回跳動(dòng)的長(zhǎng)度大于等于4的連續(xù)數(shù)據(jù)的location_code字段的值統(tǒng)一修改為session_duration值最大的數(shù)據(jù)的location_code值。
48、
49、數(shù)據(jù)合并;
50、(1)以天為粒度進(jìn)行聚合:
51、根據(jù)字段connect_date,以天為粒度,將同一天的連接數(shù)據(jù)合并成一條連接數(shù)據(jù),合并后的連接數(shù)據(jù)中:
52、connect_date的值為該天的日期(格式:y/m/d);
53、session_duration的值為同一天內(nèi)連接數(shù)據(jù)的和;
54、avg_kbps的值為同一天內(nèi)連接數(shù)據(jù)的加權(quán)和(權(quán)重為session_duration所占的比重);
55、其余字段的值等于其中sesstion_duration值最大的那條數(shù)據(jù)對(duì)應(yīng)字段的值。
56、(2)將相鄰相同ap記錄合并:
57、將用戶(hù)在相同ap的wifi接入時(shí)刻相差2個(gè)小時(shí)以?xún)?nèi)的數(shù)據(jù)合并為一條數(shù)據(jù),合并后的新的數(shù)據(jù)字段值如下:
58、connect_date的值為原來(lái)要合并的數(shù)據(jù)中的最早的日期(格式:y/m/d?h:m:s)年/月/日小時(shí):分鐘:秒;
59、session_duration的值為原來(lái)要合并的數(shù)據(jù)的對(duì)應(yīng)字段的值的和;
60、avg_kbps的值為要合并的數(shù)據(jù)中對(duì)應(yīng)字段值的加權(quán)和(權(quán)重為session_duration所占的比重);
61、其余字段的值等于原來(lái)要合并的數(shù)據(jù)中sesstion_duration值最大的那條數(shù)據(jù)對(duì)應(yīng)字段的值。
62、數(shù)據(jù)處理結(jié)果;
63、對(duì)數(shù)據(jù)集預(yù)處理完畢后,篩選出簽到序列質(zhì)量高的用戶(hù)(一天內(nèi)簽到序列長(zhǎng)度在10-25之間),篩選后數(shù)據(jù)規(guī)模如下:
64、
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對(duì)現(xiàn)有技術(shù)問(wèn)題,提供一種基于擴(kuò)散模型的興趣點(diǎn)簽到序列生成方法,通過(guò)學(xué)習(xí)真實(shí)序列分布或者對(duì)真實(shí)序列進(jìn)行補(bǔ)充來(lái)生成序列,通過(guò)生成的序列獲得等效的數(shù)據(jù)分析結(jié)果并支持高層語(yǔ)義建模。
2、一種基于擴(kuò)散模型的興趣點(diǎn)簽到序列生成方法,含有以下步驟:
3、步驟1、數(shù)據(jù)預(yù)處理,對(duì)真實(shí)世界數(shù)據(jù)集進(jìn)行清洗和平滑操作,確保數(shù)據(jù)質(zhì)量和一致性。
4、步驟2、進(jìn)行時(shí)空無(wú)損編碼,將不同長(zhǎng)度的簽到序列轉(zhuǎn)換為相等長(zhǎng)度的簽到向量,通過(guò)空間頻率向量和時(shí)間桶向量進(jìn)行編碼,保留了原始序列的信息。
5、步驟3、建立擴(kuò)散模型,構(gòu)建空間擴(kuò)散模塊和時(shí)間擴(kuò)散模塊,利用前向擴(kuò)散過(guò)程和反向重建過(guò)程捕獲時(shí)空特征。
6、步驟4、在擴(kuò)散模塊中引入條件u型網(wǎng)絡(luò),提出一種去噪網(wǎng)絡(luò),用于捕獲復(fù)雜的時(shí)空相關(guān)性,通過(guò)自注意力機(jī)制進(jìn)行建模。
7、步驟5、使用對(duì)比學(xué)習(xí)策略,采用三元對(duì)比學(xué)習(xí)進(jìn)一步捕獲簽到序列的時(shí)空相關(guān)性,加強(qiáng)時(shí)間和空間擴(kuò)散模塊之間的聯(lián)系。
8、本發(fā)明的優(yōu)點(diǎn)是:可有效解決輸入編碼長(zhǎng)度不一,難以捕獲時(shí)空相關(guān)性,受噪音干擾等問(wèn)題。該方法用于興趣點(diǎn)簽到序列生成,效果顯著。
9、表1在四個(gè)真實(shí)世界數(shù)據(jù)集上的比較
10、
11、
12、表1給出了本發(fā)明模型在四個(gè)真實(shí)世界數(shù)據(jù)集上的性能。
13、表1顯示了本發(fā)明模型在四個(gè)真實(shí)世界數(shù)據(jù)集上的性能比較,采用了不同的指標(biāo)來(lái)評(píng)估模型的性能。這些指標(biāo)包括jsd-all、jsd-t、jsd-r和jsd-u。
14、jsd-all表示整體的jensen-shannon距離,衡量生成的簽到序列與真實(shí)數(shù)據(jù)之間的相似度。
15、較低的jsd-all值表示模型生成的序列更接近真實(shí)數(shù)據(jù),模型的性能更好。
16、jsd-t表示時(shí)間維度上的jensen-shannon距離,評(píng)估模型生成的簽到序列在時(shí)間分布上與真實(shí)數(shù)據(jù)的差異。
17、較低的jsd-t值表示模型在時(shí)間上的生成效果更好。
18、jsd-r表示空間維度上的jensen-shannon距離,評(píng)估模型生成的簽到序列在空間分布上與真實(shí)數(shù)據(jù)的差異。較低的jsd-r值表示模型在空間上的生成效果更好。
19、jsd-u表示用戶(hù)維度上的jensen-shannon距離,評(píng)估模型生成的簽到序列在用戶(hù)分布上與真實(shí)數(shù)據(jù)的差異。
20、較低的jsd-u值表示模型在用戶(hù)上的生成效果更好。
21、從表中可以看出,在四個(gè)數(shù)據(jù)集上,本發(fā)明模型在jsd-all、jsd-t、jsd-r和jsd-u指標(biāo)上都表現(xiàn)出相對(duì)較低的值,這表明該模型在生成的簽到序列與真實(shí)數(shù)據(jù)之間的相似度較高,具有較好的性能。
22、相較于現(xiàn)有技術(shù),本發(fā)明具有以下優(yōu)點(diǎn):
23、處理不固定長(zhǎng)度序列能力強(qiáng):本發(fā)明技術(shù)針對(duì)不固定長(zhǎng)度的簽到序列有更強(qiáng)的處理能力。通過(guò)采用時(shí)空無(wú)損編碼技術(shù),本發(fā)明方法可以有效地處理不同長(zhǎng)度的簽到序列,而不會(huì)引入額外的噪音或損失關(guān)鍵信息。
24、有效捕捉空間和時(shí)間上下文信息:本發(fā)明技術(shù)利用兩個(gè)不同的擴(kuò)散模塊,分布捕獲時(shí)間和空間上下文信息,以確保生成的簽到序列更貼近實(shí)際情況。
25、有效捕捉空間和時(shí)間相關(guān)性:本發(fā)明技術(shù)采用了對(duì)比學(xué)習(xí)策略,捕獲簽到序列的時(shí)空相關(guān)性,加強(qiáng)時(shí)間和空間擴(kuò)散模塊之間的聯(lián)系。
26、解耦策略的效果:
27、為了展示采用分離策略的必要性,故意將空間和時(shí)間特征合并而不加以分離。在這種配置中,僅使用一個(gè)去噪網(wǎng)絡(luò)生成簽到序列,沒(méi)有結(jié)合對(duì)比學(xué)習(xí)或額外條件。其余設(shè)置與stcdm保持一致。這種設(shè)置允許評(píng)估分離生成的有效性。如圖5a、圖5b、圖5c、圖5d所示,當(dāng)時(shí)間和空間特征未分離時(shí),噪聲可能會(huì)相互干擾。此外,時(shí)間和空間特征表現(xiàn)出顯著差異。將空間和時(shí)間特征混合在一起影響了模型捕獲它們特征的能力。最終結(jié)果甚至比許多基線模型還要差。與diff-traj的性能相比,差異更大。這表明分離建模顯著影響了模型的整體有效性。這表明僅依靠單個(gè)去噪網(wǎng)絡(luò)不足以有效建??臻g-時(shí)間相關(guān)性。在分離后,模型提出的有效空間-時(shí)間相關(guān)策略可以顯著提高生成的簽到序列的質(zhì)量。這也表明,與cunet相比,diff-traj的去噪網(wǎng)絡(luò)更適合這種特定設(shè)置,但很難實(shí)現(xiàn)進(jìn)一步的改進(jìn)。的去噪網(wǎng)絡(luò)與解耦框架相結(jié)合時(shí),可以展現(xiàn)出更好的性能。
28、消融實(shí)驗(yàn):
29、為了進(jìn)一步評(píng)估stcdm中不同組件的效果,將這四個(gè)變體與stcdm模型進(jìn)行比較。進(jìn)行了消融實(shí)驗(yàn),并分析了所有數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。
30、去除條件和對(duì)比學(xué)習(xí)(w/o?cond\&cont):從去噪網(wǎng)絡(luò)中去除了條件信息。直接使用輸入和時(shí)間嵌入來(lái)預(yù)測(cè)噪聲。移除了對(duì)比學(xué)習(xí)。其余設(shè)置與stcdm相同。
31、去除條件(w/o?cond):從去噪網(wǎng)絡(luò)中移除了條件信息。直接使用輸入和時(shí)間嵌入來(lái)預(yù)測(cè)噪聲。其余設(shè)置與stcdm相同。
32、去除對(duì)比學(xué)習(xí)(w/o?cont):直接移除了對(duì)比損失。其余設(shè)置與stcdm相同。使用此設(shè)置來(lái)評(píng)估對(duì)比學(xué)習(xí)從序列級(jí)別的有效性。
33、去除cunet(w/o?cunet):使用普通的unet作為去噪網(wǎng)絡(luò),而不是cunet。其余設(shè)置與stcdm相同。使用此設(shè)置來(lái)評(píng)估cunet的功能。
34、圖6a、圖6b、圖6c、圖6d、的結(jié)果顯示,的兩個(gè)擴(kuò)散模塊和對(duì)比學(xué)習(xí)設(shè)計(jì)在建??臻g-時(shí)間相關(guān)性方面起到了重要作用。這些方法有效地從它們不同的空間和時(shí)間特征中捕獲了空間-時(shí)間相關(guān)性。與此同時(shí),生成高質(zhì)量的簽到序列的能力依賴(lài)于獨(dú)特的去噪網(wǎng)絡(luò)設(shè)計(jì)??傊?,設(shè)計(jì)的每個(gè)模塊和塊都有助于提高生成的簽到序列的質(zhì)量。這些模塊的優(yōu)越組合極大地增強(qiáng)了模型的性能和生成序列的真實(shí)性。
35、為了更直觀地比較生成結(jié)果,將的模型與diff-traj進(jìn)行了可視化,重點(diǎn)關(guān)注dartmouth數(shù)據(jù)集的兩個(gè)方面。首先,呈現(xiàn)了從dartmouth數(shù)據(jù)集中選擇的256個(gè)poi的訪問(wèn)次數(shù)的可視化,提供了訪問(wèn)頻率分布的概覽。如圖7a、圖7b、圖7c及圖7d所示。
36、圖7a:real-world:真實(shí)世界中的序列分布情況。
37、圖7b:stcdm:本發(fā)明中提出的基于擴(kuò)散模型的興趣點(diǎn)簽到序列生成方法。即用stcdm方法生成的用戶(hù)序列的分布情況。
38、圖7c:diff-traj:其中一個(gè)名稱(chēng)為diff-traj的基線模型生成的數(shù)據(jù)分布
39、圖7d:real:在圖表的圖例中,表示真實(shí)數(shù)據(jù)分布。
40、stcdm:本發(fā)明中提出的基于擴(kuò)散模型的興趣點(diǎn)簽到序列生成方法。
41、visit?density?in?a?day:這一天當(dāng)中不同模型以及真實(shí)數(shù)據(jù)的分布。
42、模型生成的簽到序列與實(shí)際情況中觀察到的空間分布更加接近。其次,呈現(xiàn)了特定poi的訪問(wèn)時(shí)間分布。與diff-traj相比,的模型生成了更好地捕獲了實(shí)際情況中觀察到的模式的訪問(wèn)時(shí)間分布。這些案例突出了的模型在捕獲生成的簽到序列的空間-時(shí)間分布方面的顯著優(yōu)勢(shì)。它們展示了的模型能夠有效地捕獲空間-時(shí)間相關(guān)性并生成更真實(shí)的簽到序列的能力。