最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種基于擴(kuò)散模型的興趣點(diǎn)簽到序列生成方法

文檔序號(hào):41950735發(fā)布日期:2025-05-16 14:10閱讀:4來(lái)源:國(guó)知局
一種基于擴(kuò)散模型的興趣點(diǎn)簽到序列生成方法

本發(fā)明屬于時(shí)空數(shù)據(jù)挖掘、深度學(xué)習(xí),涉及一種基于擴(kuò)散模型的興趣點(diǎn)簽到序列生成方法。


背景技術(shù):

1、簽到序列生成任務(wù)屬于“時(shí)空數(shù)據(jù)生成”研究領(lǐng)域,現(xiàn)有公布的時(shí)空數(shù)據(jù)生成的技術(shù)方案包括以下幾種,其缺點(diǎn)也進(jìn)行闡述:

2、(1)一種基于用戶(hù)偏好與時(shí)空上下文信息的下一個(gè)poi推薦方法(cn117194763a),獲取用戶(hù)簽到記錄進(jìn)行預(yù)處理,利用低維稠密向量對(duì)興趣點(diǎn)及各種附屬信息進(jìn)行向量嵌入,構(gòu)建并訓(xùn)練基于用戶(hù)偏好與時(shí)空上下文信息的下一個(gè)興趣點(diǎn)推薦模型,輸入用戶(hù)的長(zhǎng)期簽到序列和短期簽到序列,生成k個(gè)興趣點(diǎn),推薦給用戶(hù);但該方法只能生成用戶(hù)的下一個(gè)興趣點(diǎn),而不能生成完整的興趣點(diǎn)簽到序列,雖然該方法引入了時(shí)空上下文信息來(lái)提高推薦準(zhǔn)確度,但未充分考慮興趣點(diǎn)簽到序列中的時(shí)空相關(guān)性,這可能導(dǎo)致推薦結(jié)果與用戶(hù)實(shí)際情況不符。

3、(2)一種人員活動(dòng)軌跡及落腳點(diǎn)的自動(dòng)生成方法及系統(tǒng)(cn111985452a),包括:確定待分析人員信息以及待分析人員及其關(guān)系人名下的車(chē)輛信息;基于所述車(chē)輛在設(shè)定時(shí)間段內(nèi)經(jīng)過(guò)的卡口信息,確定待分析人員車(chē)輛在設(shè)定時(shí)間段內(nèi)的第一活動(dòng)軌跡;基于所述活動(dòng)軌跡確定待分析人員的行程,以及所有行程中的關(guān)鍵點(diǎn)信息;根據(jù)所述關(guān)鍵點(diǎn)位置信息確認(rèn)待分析人員的落腳點(diǎn)信息。該方法依賴(lài)于車(chē)輛信息和已有的場(chǎng)所和設(shè)備,可能導(dǎo)致對(duì)某些人員的活動(dòng)軌跡和落腳點(diǎn)信息無(wú)法準(zhǔn)確生成,會(huì)受到數(shù)據(jù)不完整和隱私問(wèn)題的影響;同時(shí),方法主要基于車(chē)輛經(jīng)過(guò)的卡口信息來(lái)確定活動(dòng)軌跡,對(duì)于沒(méi)有車(chē)輛或車(chē)輛未經(jīng)過(guò)卡口的情況下可能無(wú)法生成準(zhǔn)確信息。

4、(3)一種車(chē)輛軌跡生成方法(cn110223515b)提出一種基于gan的車(chē)輛軌跡生成方法,步驟1,數(shù)據(jù)處理階段,所述數(shù)據(jù)處理階段為首先對(duì)軌跡數(shù)據(jù)和地圖數(shù)據(jù)進(jìn)行預(yù)處理;步驟2,數(shù)據(jù)生成模型階段,所述數(shù)據(jù)生成模型階段包括生成路段軌跡生成模型和行程軌跡生成模型;步驟3,數(shù)據(jù)集生成階段,所述數(shù)據(jù)集生成階段為對(duì)加載所述路段軌跡生成模型和行程軌跡生成模型得到軌跡數(shù)據(jù)。由于簽到序列的長(zhǎng)度是不固定的,該方法難以有效處理不同長(zhǎng)度的軌跡數(shù)據(jù)。該方法需要固定長(zhǎng)度的輸入數(shù)據(jù),因此在處理長(zhǎng)度不一的軌跡數(shù)據(jù)時(shí),可能需要進(jìn)行填充或截?cái)嗖僮鳌H欢?,這些操作可能會(huì)引入額外的噪音,影響生成軌跡的準(zhǔn)確性和質(zhì)量;另外,由于gan訓(xùn)練的極端不穩(wěn)定性,導(dǎo)致其生成結(jié)果可能存在不真實(shí)或不合理的情況。

5、綜上,已公布的技術(shù)方案中,未充分考慮興趣點(diǎn)簽到序列中的時(shí)空相關(guān)性,依賴(lài)于已有的場(chǎng)所和設(shè)備,難以有效處理不同長(zhǎng)度的軌跡數(shù)據(jù),導(dǎo)致不能生成完整且高質(zhì)量的興趣點(diǎn)簽到序列。

6、無(wú)線網(wǎng)絡(luò)技術(shù)的發(fā)展使得個(gè)體移動(dòng)事件,能夠被高精度地檢測(cè),將這些記錄稱(chēng)為興趣點(diǎn)簽到(check-in)序列,為充分理解城市人口流動(dòng)性提供了可行性,通過(guò)提取個(gè)體移動(dòng)事件的高層語(yǔ)義,可應(yīng)用于興趣地點(diǎn)推薦、商業(yè)位置選擇、時(shí)間預(yù)測(cè)等下游任務(wù)。然而,直接利用現(xiàn)實(shí)生活的簽到序列來(lái)支持下游任務(wù)必然會(huì)引發(fā)隱私問(wèn)題,導(dǎo)致難以獲取關(guān)于人類(lèi)活動(dòng)的大規(guī)模公開(kāi)可用數(shù)據(jù)。

7、數(shù)據(jù)預(yù)處理部分的具體細(xì)節(jié):源數(shù)據(jù)集介紹:

8、堪培拉大學(xué)(canberra)無(wú)線網(wǎng)絡(luò)使用數(shù)據(jù)集。

9、(1)數(shù)據(jù)集內(nèi)容

10、本數(shù)據(jù)集記錄了堪培拉大學(xué)師生連接校園免費(fèi)無(wú)線網(wǎng)絡(luò)的連接位置信息、連接帶寬和連接時(shí)長(zhǎng)等重要的能夠反映用戶(hù)行為的簽到序列數(shù)據(jù),數(shù)據(jù)以csv文件的形式存儲(chǔ),其中主要數(shù)據(jù)字段如下:

11、canberra_checkins.csv

12、該文件記錄了每一條用戶(hù)接入ap的記錄,包含接入地點(diǎn)信息、接入時(shí)間和接入時(shí)長(zhǎng)等。

13、

14、(2)數(shù)據(jù)集規(guī)模

15、下載到的數(shù)據(jù)集共包含215527條無(wú)線網(wǎng)絡(luò)接入記錄,進(jìn)行分類(lèi)后共對(duì)應(yīng)有4441個(gè)用戶(hù)和317個(gè)ap接入點(diǎn)。

16、

17、達(dá)特茅斯學(xué)院(dartmouth)無(wú)線網(wǎng)絡(luò)使用數(shù)據(jù)集。

18、(1)數(shù)據(jù)集內(nèi)容

19、本數(shù)據(jù)集記錄了達(dá)特茅斯學(xué)院學(xué)生無(wú)線網(wǎng)絡(luò)使用情況,涉及476個(gè)無(wú)線網(wǎng)絡(luò)接入點(diǎn),覆蓋達(dá)特茅斯學(xué)院161個(gè)建筑,數(shù)據(jù)以csv文件(二維表)形式存儲(chǔ),其中主要數(shù)據(jù)字段如下:

20、ap_locations.csv,該文件記錄了每一個(gè)ap(無(wú)線網(wǎng)絡(luò)接入點(diǎn))編號(hào)對(duì)應(yīng)的地理位置坐標(biāo)。

21、

22、[id].csv,該文件有若干,記錄每個(gè)用戶(hù)的ap接入記錄,存儲(chǔ)于名為“2001~2003”文件夾中,其中[id]為對(duì)應(yīng)用戶(hù)的編號(hào)。

23、

24、(2)數(shù)據(jù)集規(guī)模,下載到的數(shù)據(jù)集共包含623個(gè)ap接入點(diǎn)編號(hào)(此處包括部分含有缺失值的ap接入點(diǎn)數(shù)據(jù)),以及6202個(gè)用戶(hù),總的記錄條數(shù)共計(jì)193958條。

25、

26、weeplace數(shù)據(jù)集:

27、(1)數(shù)據(jù)集內(nèi)容,本數(shù)據(jù)集記錄了用戶(hù)在基于位置的社交平臺(tái)上進(jìn)行的簽到活動(dòng)。數(shù)據(jù)以csv文件的形式存儲(chǔ),其中主要字段如下:

28、weeplace_checkins.csv

29、

30、

31、(2)數(shù)據(jù)集規(guī)模,下載到的數(shù)據(jù)集共包含1097個(gè)ap接入點(diǎn)編號(hào)(此處包括部分含有缺失值的ap接入點(diǎn)數(shù)據(jù)),以及1432個(gè)用戶(hù),總的記錄條數(shù)共計(jì)3041596條。

32、

33、gowalla數(shù)據(jù)集:

34、(1)數(shù)據(jù)集內(nèi)容,本數(shù)據(jù)集與weeplace數(shù)據(jù)集相似,均為記錄基于位置的社交平臺(tái)上用戶(hù)進(jìn)行的簽到活動(dòng),數(shù)據(jù)以csv的形式存儲(chǔ),其中主要字段如下:

35、gowalla_checkins.csv

36、

37、(2)數(shù)據(jù)集規(guī)模,下載到的數(shù)據(jù)集共包含3028個(gè)ap接入點(diǎn)編號(hào)(此處包括部分含有缺失值的ap接入點(diǎn)數(shù)據(jù)),以及3286個(gè)用戶(hù),總的記錄條數(shù)共計(jì)2148575條。

38、

39、數(shù)據(jù)清洗過(guò)程:由于直接獲取的數(shù)據(jù)集中的記錄質(zhì)量不一,需要通過(guò)一系列清洗操作,剔除數(shù)據(jù)集中含空缺值的記錄,以及篩選具有高質(zhì)量簽到序列的用戶(hù),用于后續(xù)模型的訓(xùn)練。

40、所有數(shù)據(jù)集采取統(tǒng)一的處理流程,其中上述數(shù)據(jù)集公共的字段如下:

41、

42、數(shù)據(jù)過(guò)濾;

43、(1)刪去過(guò)濾后不包含軌跡點(diǎn)數(shù)據(jù)的用戶(hù)(即刪去了空的csv文件),得到了有效用戶(hù),即至少有1個(gè)軌跡點(diǎn)的用戶(hù);

44、(2)刪去了字段session_duration值小于3的數(shù)據(jù)(連接時(shí)長(zhǎng)小于3分鐘,認(rèn)定為無(wú)效的連接);

45、(3)刪去了字段avg_kbps值小于1的數(shù)據(jù)(小于1kbps的帶寬無(wú)法進(jìn)行正常的網(wǎng)絡(luò)通信,認(rèn)定為無(wú)效的連接)。

46、過(guò)濾后的數(shù)據(jù)均滿(mǎn)足session_duration值大于等于3,且avg_kbps值大于等于1。

47、數(shù)據(jù)去擾:將在2個(gè)ap連接點(diǎn)間來(lái)回跳動(dòng)的長(zhǎng)度大于等于4的連續(xù)數(shù)據(jù)的location_code字段的值統(tǒng)一修改為session_duration值最大的數(shù)據(jù)的location_code值。

48、

49、數(shù)據(jù)合并;

50、(1)以天為粒度進(jìn)行聚合:

51、根據(jù)字段connect_date,以天為粒度,將同一天的連接數(shù)據(jù)合并成一條連接數(shù)據(jù),合并后的連接數(shù)據(jù)中:

52、connect_date的值為該天的日期(格式:y/m/d);

53、session_duration的值為同一天內(nèi)連接數(shù)據(jù)的和;

54、avg_kbps的值為同一天內(nèi)連接數(shù)據(jù)的加權(quán)和(權(quán)重為session_duration所占的比重);

55、其余字段的值等于其中sesstion_duration值最大的那條數(shù)據(jù)對(duì)應(yīng)字段的值。

56、(2)將相鄰相同ap記錄合并:

57、將用戶(hù)在相同ap的wifi接入時(shí)刻相差2個(gè)小時(shí)以?xún)?nèi)的數(shù)據(jù)合并為一條數(shù)據(jù),合并后的新的數(shù)據(jù)字段值如下:

58、connect_date的值為原來(lái)要合并的數(shù)據(jù)中的最早的日期(格式:y/m/d?h:m:s)年/月/日小時(shí):分鐘:秒;

59、session_duration的值為原來(lái)要合并的數(shù)據(jù)的對(duì)應(yīng)字段的值的和;

60、avg_kbps的值為要合并的數(shù)據(jù)中對(duì)應(yīng)字段值的加權(quán)和(權(quán)重為session_duration所占的比重);

61、其余字段的值等于原來(lái)要合并的數(shù)據(jù)中sesstion_duration值最大的那條數(shù)據(jù)對(duì)應(yīng)字段的值。

62、數(shù)據(jù)處理結(jié)果;

63、對(duì)數(shù)據(jù)集預(yù)處理完畢后,篩選出簽到序列質(zhì)量高的用戶(hù)(一天內(nèi)簽到序列長(zhǎng)度在10-25之間),篩選后數(shù)據(jù)規(guī)模如下:

64、


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明針對(duì)現(xiàn)有技術(shù)問(wèn)題,提供一種基于擴(kuò)散模型的興趣點(diǎn)簽到序列生成方法,通過(guò)學(xué)習(xí)真實(shí)序列分布或者對(duì)真實(shí)序列進(jìn)行補(bǔ)充來(lái)生成序列,通過(guò)生成的序列獲得等效的數(shù)據(jù)分析結(jié)果并支持高層語(yǔ)義建模。

2、一種基于擴(kuò)散模型的興趣點(diǎn)簽到序列生成方法,含有以下步驟:

3、步驟1、數(shù)據(jù)預(yù)處理,對(duì)真實(shí)世界數(shù)據(jù)集進(jìn)行清洗和平滑操作,確保數(shù)據(jù)質(zhì)量和一致性。

4、步驟2、進(jìn)行時(shí)空無(wú)損編碼,將不同長(zhǎng)度的簽到序列轉(zhuǎn)換為相等長(zhǎng)度的簽到向量,通過(guò)空間頻率向量和時(shí)間桶向量進(jìn)行編碼,保留了原始序列的信息。

5、步驟3、建立擴(kuò)散模型,構(gòu)建空間擴(kuò)散模塊和時(shí)間擴(kuò)散模塊,利用前向擴(kuò)散過(guò)程和反向重建過(guò)程捕獲時(shí)空特征。

6、步驟4、在擴(kuò)散模塊中引入條件u型網(wǎng)絡(luò),提出一種去噪網(wǎng)絡(luò),用于捕獲復(fù)雜的時(shí)空相關(guān)性,通過(guò)自注意力機(jī)制進(jìn)行建模。

7、步驟5、使用對(duì)比學(xué)習(xí)策略,采用三元對(duì)比學(xué)習(xí)進(jìn)一步捕獲簽到序列的時(shí)空相關(guān)性,加強(qiáng)時(shí)間和空間擴(kuò)散模塊之間的聯(lián)系。

8、本發(fā)明的優(yōu)點(diǎn)是:可有效解決輸入編碼長(zhǎng)度不一,難以捕獲時(shí)空相關(guān)性,受噪音干擾等問(wèn)題。該方法用于興趣點(diǎn)簽到序列生成,效果顯著。

9、表1在四個(gè)真實(shí)世界數(shù)據(jù)集上的比較

10、

11、

12、表1給出了本發(fā)明模型在四個(gè)真實(shí)世界數(shù)據(jù)集上的性能。

13、表1顯示了本發(fā)明模型在四個(gè)真實(shí)世界數(shù)據(jù)集上的性能比較,采用了不同的指標(biāo)來(lái)評(píng)估模型的性能。這些指標(biāo)包括jsd-all、jsd-t、jsd-r和jsd-u。

14、jsd-all表示整體的jensen-shannon距離,衡量生成的簽到序列與真實(shí)數(shù)據(jù)之間的相似度。

15、較低的jsd-all值表示模型生成的序列更接近真實(shí)數(shù)據(jù),模型的性能更好。

16、jsd-t表示時(shí)間維度上的jensen-shannon距離,評(píng)估模型生成的簽到序列在時(shí)間分布上與真實(shí)數(shù)據(jù)的差異。

17、較低的jsd-t值表示模型在時(shí)間上的生成效果更好。

18、jsd-r表示空間維度上的jensen-shannon距離,評(píng)估模型生成的簽到序列在空間分布上與真實(shí)數(shù)據(jù)的差異。較低的jsd-r值表示模型在空間上的生成效果更好。

19、jsd-u表示用戶(hù)維度上的jensen-shannon距離,評(píng)估模型生成的簽到序列在用戶(hù)分布上與真實(shí)數(shù)據(jù)的差異。

20、較低的jsd-u值表示模型在用戶(hù)上的生成效果更好。

21、從表中可以看出,在四個(gè)數(shù)據(jù)集上,本發(fā)明模型在jsd-all、jsd-t、jsd-r和jsd-u指標(biāo)上都表現(xiàn)出相對(duì)較低的值,這表明該模型在生成的簽到序列與真實(shí)數(shù)據(jù)之間的相似度較高,具有較好的性能。

22、相較于現(xiàn)有技術(shù),本發(fā)明具有以下優(yōu)點(diǎn):

23、處理不固定長(zhǎng)度序列能力強(qiáng):本發(fā)明技術(shù)針對(duì)不固定長(zhǎng)度的簽到序列有更強(qiáng)的處理能力。通過(guò)采用時(shí)空無(wú)損編碼技術(shù),本發(fā)明方法可以有效地處理不同長(zhǎng)度的簽到序列,而不會(huì)引入額外的噪音或損失關(guān)鍵信息。

24、有效捕捉空間和時(shí)間上下文信息:本發(fā)明技術(shù)利用兩個(gè)不同的擴(kuò)散模塊,分布捕獲時(shí)間和空間上下文信息,以確保生成的簽到序列更貼近實(shí)際情況。

25、有效捕捉空間和時(shí)間相關(guān)性:本發(fā)明技術(shù)采用了對(duì)比學(xué)習(xí)策略,捕獲簽到序列的時(shí)空相關(guān)性,加強(qiáng)時(shí)間和空間擴(kuò)散模塊之間的聯(lián)系。

26、解耦策略的效果:

27、為了展示采用分離策略的必要性,故意將空間和時(shí)間特征合并而不加以分離。在這種配置中,僅使用一個(gè)去噪網(wǎng)絡(luò)生成簽到序列,沒(méi)有結(jié)合對(duì)比學(xué)習(xí)或額外條件。其余設(shè)置與stcdm保持一致。這種設(shè)置允許評(píng)估分離生成的有效性。如圖5a、圖5b、圖5c、圖5d所示,當(dāng)時(shí)間和空間特征未分離時(shí),噪聲可能會(huì)相互干擾。此外,時(shí)間和空間特征表現(xiàn)出顯著差異。將空間和時(shí)間特征混合在一起影響了模型捕獲它們特征的能力。最終結(jié)果甚至比許多基線模型還要差。與diff-traj的性能相比,差異更大。這表明分離建模顯著影響了模型的整體有效性。這表明僅依靠單個(gè)去噪網(wǎng)絡(luò)不足以有效建??臻g-時(shí)間相關(guān)性。在分離后,模型提出的有效空間-時(shí)間相關(guān)策略可以顯著提高生成的簽到序列的質(zhì)量。這也表明,與cunet相比,diff-traj的去噪網(wǎng)絡(luò)更適合這種特定設(shè)置,但很難實(shí)現(xiàn)進(jìn)一步的改進(jìn)。的去噪網(wǎng)絡(luò)與解耦框架相結(jié)合時(shí),可以展現(xiàn)出更好的性能。

28、消融實(shí)驗(yàn):

29、為了進(jìn)一步評(píng)估stcdm中不同組件的效果,將這四個(gè)變體與stcdm模型進(jìn)行比較。進(jìn)行了消融實(shí)驗(yàn),并分析了所有數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。

30、去除條件和對(duì)比學(xué)習(xí)(w/o?cond\&cont):從去噪網(wǎng)絡(luò)中去除了條件信息。直接使用輸入和時(shí)間嵌入來(lái)預(yù)測(cè)噪聲。移除了對(duì)比學(xué)習(xí)。其余設(shè)置與stcdm相同。

31、去除條件(w/o?cond):從去噪網(wǎng)絡(luò)中移除了條件信息。直接使用輸入和時(shí)間嵌入來(lái)預(yù)測(cè)噪聲。其余設(shè)置與stcdm相同。

32、去除對(duì)比學(xué)習(xí)(w/o?cont):直接移除了對(duì)比損失。其余設(shè)置與stcdm相同。使用此設(shè)置來(lái)評(píng)估對(duì)比學(xué)習(xí)從序列級(jí)別的有效性。

33、去除cunet(w/o?cunet):使用普通的unet作為去噪網(wǎng)絡(luò),而不是cunet。其余設(shè)置與stcdm相同。使用此設(shè)置來(lái)評(píng)估cunet的功能。

34、圖6a、圖6b、圖6c、圖6d、的結(jié)果顯示,的兩個(gè)擴(kuò)散模塊和對(duì)比學(xué)習(xí)設(shè)計(jì)在建??臻g-時(shí)間相關(guān)性方面起到了重要作用。這些方法有效地從它們不同的空間和時(shí)間特征中捕獲了空間-時(shí)間相關(guān)性。與此同時(shí),生成高質(zhì)量的簽到序列的能力依賴(lài)于獨(dú)特的去噪網(wǎng)絡(luò)設(shè)計(jì)??傊?,設(shè)計(jì)的每個(gè)模塊和塊都有助于提高生成的簽到序列的質(zhì)量。這些模塊的優(yōu)越組合極大地增強(qiáng)了模型的性能和生成序列的真實(shí)性。

35、為了更直觀地比較生成結(jié)果,將的模型與diff-traj進(jìn)行了可視化,重點(diǎn)關(guān)注dartmouth數(shù)據(jù)集的兩個(gè)方面。首先,呈現(xiàn)了從dartmouth數(shù)據(jù)集中選擇的256個(gè)poi的訪問(wèn)次數(shù)的可視化,提供了訪問(wèn)頻率分布的概覽。如圖7a、圖7b、圖7c及圖7d所示。

36、圖7a:real-world:真實(shí)世界中的序列分布情況。

37、圖7b:stcdm:本發(fā)明中提出的基于擴(kuò)散模型的興趣點(diǎn)簽到序列生成方法。即用stcdm方法生成的用戶(hù)序列的分布情況。

38、圖7c:diff-traj:其中一個(gè)名稱(chēng)為diff-traj的基線模型生成的數(shù)據(jù)分布

39、圖7d:real:在圖表的圖例中,表示真實(shí)數(shù)據(jù)分布。

40、stcdm:本發(fā)明中提出的基于擴(kuò)散模型的興趣點(diǎn)簽到序列生成方法。

41、visit?density?in?a?day:這一天當(dāng)中不同模型以及真實(shí)數(shù)據(jù)的分布。

42、模型生成的簽到序列與實(shí)際情況中觀察到的空間分布更加接近。其次,呈現(xiàn)了特定poi的訪問(wèn)時(shí)間分布。與diff-traj相比,的模型生成了更好地捕獲了實(shí)際情況中觀察到的模式的訪問(wèn)時(shí)間分布。這些案例突出了的模型在捕獲生成的簽到序列的空間-時(shí)間分布方面的顯著優(yōu)勢(shì)。它們展示了的模型能夠有效地捕獲空間-時(shí)間相關(guān)性并生成更真實(shí)的簽到序列的能力。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1