最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

數(shù)據(jù)伴隨分析方法及裝置與流程

文檔序號:11177801閱讀:1147來源:國知局
數(shù)據(jù)伴隨分析方法及裝置與流程

本發(fā)明屬于數(shù)據(jù)處理分析計算領域,尤其涉及一種數(shù)據(jù)伴隨分析方法及裝置。



背景技術:

在移動大數(shù)據(jù)中,有很多有用的定位數(shù)據(jù)。為從移動大數(shù)據(jù)中挖掘這些有用的定位數(shù)據(jù),可以通過號碼伴隨分析獲取某時間段內(nèi)目標號碼經(jīng)歷的地點組成的一段軌跡,然后將該目標號碼的軌跡與其他號碼的軌跡進行比較,計算出這些號碼之間的伴隨相似度,該伴隨相似度可以為號碼間的親密度判斷提高十分有利的依據(jù)。

移動大數(shù)據(jù)的數(shù)據(jù)密度非常高,而在交互應用中對于號碼伴隨分析的時效性要求較高。目前先擬合軌跡再計算號碼之間的伴隨相似度,由于用于描述號碼的軌跡的原始數(shù)據(jù)的離散偏離幅度大,需要構建復雜的非線性數(shù)學模型進行擬合處理,復雜度較高且耗時較長。



技術實現(xiàn)要素:

本發(fā)明提供一種數(shù)據(jù)伴隨分析方法及裝置,用于解決現(xiàn)有通過先擬合軌跡再計算伴隨相似度存在復雜度高耗時長的問題。

為了實現(xiàn)上述目的,本發(fā)明提供了一種數(shù)據(jù)伴隨分析方法,包括:

對目標號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理以得到所述目標號碼的一維空間數(shù)據(jù);

將所述目標號碼的一維空間數(shù)據(jù)和時間數(shù)據(jù)轉(zhuǎn)換成可比較的所述目標號碼的軌跡隊列;

基于所述目標號碼的軌跡隊列計算與其他號碼之間的伴隨相似度。

為了實現(xiàn)上述目的,本發(fā)明提供了一種數(shù)據(jù)伴隨分析裝置,包括:

降維模塊,用于對目標號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理以得到所述目標號碼的一維空間數(shù)據(jù);

數(shù)據(jù)轉(zhuǎn)換模塊,用于將所述目標號碼的一維空間數(shù)據(jù)和時間數(shù)據(jù)轉(zhuǎn)換成可比較的所述目標號碼的軌跡隊列;

計算模塊,用于基于所述目標號碼的軌跡隊列計算與其他號碼之間的伴隨相似度。

本發(fā)明提供的數(shù)據(jù)伴隨分析方法及裝置,通過將目標號碼原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理成目標號碼的一維空間數(shù)據(jù),將目標號碼的一維空間數(shù)據(jù)和原始數(shù)據(jù)中的時間數(shù)據(jù)轉(zhuǎn)換成可比較的目標號碼的軌跡隊列,基于目標號碼的軌跡隊列計算與其他號碼之間的伴隨相似度。本發(fā)明中,通過降維處理簡化原始數(shù)據(jù),不再通過數(shù)學模型進行擬合處理,降低復雜度,提高伴隨分析的時效性。

附圖說明

圖1為本發(fā)明實施例一的數(shù)據(jù)伴隨分析方法的流程示意圖;

圖2為本發(fā)明實施例二的數(shù)據(jù)伴隨分析方法的流程示意圖;

圖3為本發(fā)明實施例三的數(shù)據(jù)伴隨分析方法的流程示意圖;

圖4為本發(fā)明實施例四的數(shù)據(jù)伴隨分析方法的流程示意圖;

圖5為本發(fā)明實施例四的數(shù)據(jù)伴隨分析裝置的結構示意圖;

圖6為本發(fā)明實施例五的數(shù)據(jù)伴隨分析裝置的結構示意圖。

具體實施方式

下面結合附圖對本發(fā)明實施例提供的數(shù)據(jù)伴隨分析方法及裝置進行詳細描述。

實施例一

如圖1所示,其為本發(fā)明實施例一的數(shù)據(jù)伴隨分析方法的流程示意圖。該數(shù)據(jù)伴隨分析方法包括以下步驟:

s101、對目標號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理以得到目標號碼的一維空間數(shù)據(jù)。

在號碼移動的過程中,會產(chǎn)生很多的定位數(shù)據(jù),一般情況下,這些定位數(shù)據(jù)包括用于表示位置信息的空間維度的數(shù)據(jù)和用于表示時間的時間維度的數(shù)據(jù),其中,空間維度的數(shù)據(jù)由經(jīng)度和緯度數(shù)據(jù)構成。本實施例中,將號碼移動過程中產(chǎn)生的定位數(shù)據(jù)定義為原始數(shù)據(jù),通過原始數(shù)據(jù)可以表示該號碼在不同時刻所處的位置。

為了減低原始數(shù)據(jù)的維度,來簡化定位數(shù)據(jù),本實施例中,將目標號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)降維成一維空間數(shù)據(jù),具體地,對目標數(shù)據(jù)的二維空間數(shù)據(jù)即經(jīng)緯度數(shù)據(jù)進行空間hash化處理,將二維空間數(shù)據(jù)映射成一元的geohash編碼,即將經(jīng)緯度依次迭代映射成32進制的編碼中。本實施例中,該一元geohash編碼就是該目標號碼的一維空間數(shù)據(jù),此時就可以通過該geohash編碼表示目標號碼所處的位置。

s102、將目標號碼的一維空間數(shù)據(jù)和時間數(shù)據(jù)轉(zhuǎn)換成可比較的目標號碼的軌跡隊列。

原始數(shù)據(jù)中的二維空間數(shù)據(jù)轉(zhuǎn)換成一維空間數(shù)據(jù)后,其對應的時間數(shù)據(jù)不會發(fā)生變化。在獲取到目標號碼的一維空間數(shù)據(jù)后,與原始數(shù)據(jù)中與該一維空間數(shù)據(jù)對應的時間數(shù)據(jù)結合,就能夠構成該目標號碼的軌跡記錄。本實施例中,該目標號碼的軌跡記錄能夠表示出該目標號碼在不同時間點所處的位置,時間點對應原始數(shù)據(jù)中的時間數(shù)據(jù)。所處位置用一位空間數(shù)據(jù)表示。

目標號碼的軌跡記錄是一種時間點的記錄,為了能夠?qū)⒛繕颂柎a的數(shù)據(jù)進行比較,進一步地,需要對目標號碼的軌跡記錄進行數(shù)據(jù)規(guī)整,以得到目標號碼的軌跡隊列,即將目標號碼的軌跡記錄從時間點的記錄方式轉(zhuǎn)換成時間段的記錄方式。

s103、基于目標號碼的軌跡隊列計算與其他號碼之間的伴隨相似度。

在獲取到目標號碼的軌跡隊列后,可以用相同的過程獲取其他號碼的軌跡隊列,然后將基于目標號碼的軌跡隊列和其他號碼的軌跡隊列進行比較,基于預設的伴隨相似度策略獲取目標號碼和其他號碼之間的伴隨相似度,本實施例中,其他號碼可以為一個也可以是多個??蛇x地,其他號碼可以用戶輸入,也可以根據(jù)目標號碼查詢到的軌跡相似的號碼。

本實施例提供的數(shù)據(jù)伴隨分析方法,通過將目標號碼原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理成目標號碼的一維空間數(shù)據(jù),將目標號碼的一維空間數(shù)據(jù)和原始數(shù)據(jù)中的時間數(shù)據(jù)轉(zhuǎn)換成可比較的目標軌跡隊列,基于目標號碼的軌跡隊列計算與其他號碼之間的伴隨相似度。本實施例中,通過降維處理簡化原始數(shù)據(jù),不再通過數(shù)學模型進行擬合處理,降低復雜度,提高伴隨分析的時效性。

實施例二

如圖2所示,其為本發(fā)明實施例二的數(shù)據(jù)伴隨分析方法的流程示意圖。該數(shù)據(jù)伴隨分析方法包括以下步驟:

s201、對目標號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理以得到目標號碼的一維空間數(shù)據(jù)。

為了減低原始數(shù)據(jù)的維度,來簡化定位數(shù)據(jù),本實施例中,將目標號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)降維成一維空間數(shù)據(jù),具體地,對目標數(shù)據(jù)的二維空間數(shù)據(jù)即經(jīng)緯度數(shù)據(jù)進行空間hash化處理,將二維空間數(shù)據(jù)映射成一元的geohash編碼,即將經(jīng)緯度依次迭代映射成32進制的編碼中。本實施例中,該一元geohash編碼就是該目標號碼的一維空間數(shù)據(jù),此時就可以通過該geohash編碼表示目標號碼所處的位置。

s202、利用目標號碼的一維空間數(shù)據(jù)和原始數(shù)據(jù)中的時間數(shù)據(jù)生成目標號碼的軌跡記錄。

原始數(shù)據(jù)中的二維空間數(shù)據(jù)轉(zhuǎn)換成一維空間數(shù)據(jù)后,其對應的時間數(shù)據(jù)不會發(fā)生變化。在獲取到目標號碼的一維空間數(shù)據(jù)后,與原始數(shù)據(jù)中與該一維空間數(shù)據(jù)對應的時間數(shù)據(jù)結合,就能夠構成該目標號碼的軌跡記錄。本實施例中,該目標號碼的軌跡記錄能夠表示出該目標號碼在不同時間點所處的位置,時間點對應原始數(shù)據(jù)中的時間數(shù)據(jù)。所處位置用一位空間數(shù)據(jù)表示。

s203、對目標號碼的軌跡記錄進行數(shù)據(jù)規(guī)整,以得到目標號碼的軌跡隊列。

目標號碼的軌跡記錄是一種時間點的記錄,為了能夠?qū)⒛繕颂柎a的數(shù)據(jù)進行比較,進一步地,需要對目標號碼的軌跡記錄進行數(shù)據(jù)規(guī)整, 以得到目標號碼的軌跡隊列,即將目標號碼的軌跡記錄從時間點的記錄方式轉(zhuǎn)換成時間段的記錄方式。

具體地,針對目標號碼的軌跡記錄中連續(xù)時間點處在相同位置的記錄,將表示最早時間的時間點作為該相同位置的開始時間,將表示最晚時間的時間點作為該相同位置的結束時間,得到該相同位置對應的軌跡。其中,目標號碼連續(xù)時間點處在相同位置,說明目標號碼在一段時間內(nèi)處于該相同位置上,并未在該時間段內(nèi)離開該相同位置。實際應用中,原始數(shù)據(jù)的數(shù)據(jù)密度大,不宜直接處理,本實施例中將位置相同的記錄基于時間點進行合并后,可以先去除重復的記錄,能夠起到簡化數(shù)據(jù)的作用。

針對目標號碼的軌跡記錄中不同時間點處在不同位置的記錄,將時間點作為該不同位置的開始時間和結束時間,得到該不同位置對應的軌跡。

在完成從時間點的記錄格式轉(zhuǎn)換到時間段的記錄格式后,各軌跡的時間段之間是不連續(xù)的。為了能夠?qū)⒛繕颂柎a的軌跡進行比較,需要將不連續(xù)的時間段進行連續(xù)化處理。具體地,將軌跡隊列中每條記錄中的geohash編碼的位數(shù)調(diào)整到預設的位數(shù),然后需要對軌跡的時間段的端點進行調(diào)整,以構建可進行比較的目標號碼的軌跡隊列。首先,將目標號碼的所有軌跡按照開始時間從早到晚進行排序,按序?qū)δ繕颂柎a中相鄰的軌跡的時間段的端點進行調(diào)整,以使相鄰的軌跡的時間段的端點重合,在完成所有的軌跡的時間段端點的調(diào)整后,得到目標號碼的軌跡隊列。其中,本實施例中,時間段的端點就是時間段的開始時間和結束時間。例如,當前軌跡的時間段的上端點即開始時間為上一個軌跡的結束時間和自身開始時間的中間值,當前軌跡的時間段的下端點即結束時間為自身的結束時間與下一個軌跡的開始時間的中間值。例如,將當前軌跡的時間段的下端點維持不變,而將下一個軌跡的時間段的上端點值調(diào)整為當前軌跡的時間段的上端點值,使得相鄰的軌跡的時間段的端點重合。

下面舉例對s101~s103進行解釋說明:

目標號碼為155****2623,該號碼的原始數(shù)據(jù)如下:

經(jīng)過s101和s102之后得到目標號碼的軌跡記錄如下:

在s103的處理過程中,目標號碼的軌跡如下:

在對目標號碼需要對第一隊列進規(guī)整,按照預設位數(shù)對geohash編碼的部分位數(shù)進行舍棄,然后將對相鄰記錄的時段段的端點進行調(diào)整,使相鄰的記錄在時間段上連續(xù):目標號碼的軌跡隊列如下:

s204、基于目標號碼的軌跡隊列計算與其他號碼之間的伴隨相似度。

在獲取到目標號碼的軌跡隊列后,可以用相同的過程獲取其他號碼的軌跡隊列,然后將基于目標號碼的軌跡隊列和其他號碼的軌跡隊列進行比較,基于預設的伴隨相似度策略獲取目標號碼和其他號碼之間的伴隨相似度,本實施例中,其他號碼可以為一個也可以是多個??蛇x地,其他號碼可以用戶輸入,也可以根據(jù)目標號碼查詢到的軌跡相似的號碼。

基于預設的伴隨相似度計算策略獲取目標號碼和其他號碼之間的伴隨相似度的過程包括:

首先對預設位數(shù)的geohash編碼進行地理分層,并且預設為每個層次設置不同的權重。將目標號碼軌跡隊列中每一條記錄與其他號碼中每一條記錄進行比較,判斷相互比較的兩條記錄的時間段在時間上是否存在交集,存在交集說明兩者的時間段存在時間重疊,例如,目標號碼的一條記錄的起始時間在其他號碼的一條記錄的時間段范圍內(nèi),說明兩者在時間上存在交集。

本實施例中,當存在交集時,獲取相互比較的兩條記錄中的表示位置的geohash編碼之間的重復的層次,獲取與該重復的層次對應的預設的權重,將預設的權重和預設的交集基數(shù)相乘得到一個交集數(shù)值。將所有在時間上存在交集的次數(shù),以及每次交集時獲取到的交集數(shù)值,將所有交集數(shù)值相加后與交集的次數(shù)做比值,該比值作為目標號碼與其他號碼之間的伴隨相似度。本實施例中,不再利用三維歐式距離來獲取伴隨相似度,而是基于上述預設的伴隨分析策略獲取伴隨相似度的方式,減少計算難度,提高伴隨分析的效率。

例如,可以將geohash編碼選擇保留7位,其中,設定該編碼中第5位、第6位和第7位參與伴隨相似度的計算。權重的設置規(guī)則:存在交集時的基數(shù)設為1。geohash7位全相同,權重為1,geohash前6位相同,第7位不同,權重為0.5,geohash前5位相同,第6位不同,權重為0.25,geohash前5位都不同,或者時間上無交集權重都為0。伴隨相似度的計算公式:所有的交集數(shù)據(jù)之和/時間上有交集的次數(shù)。

本實施例提供的數(shù)據(jù)伴隨分析方法,通過將目標號碼原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理成目標號碼的一維空間數(shù)據(jù),利用目標號碼的 一維空間數(shù)據(jù)和原始數(shù)據(jù)中的時間數(shù)據(jù)構成目標號碼的軌跡記錄,通過數(shù)據(jù)規(guī)則處理將目標號碼的軌跡記錄轉(zhuǎn)換成可比較的目標軌跡隊列,基于目標號碼的軌跡隊列計算與其他號碼之間的伴隨相似度。本實施例中,通過降維處理簡化原始數(shù)據(jù),不再通過數(shù)學模型進行擬合處理,降低復雜度,提高伴隨分析的時效性。

實施例三

如圖3所示,其為本發(fā)明實施例三的數(shù)據(jù)伴隨分析方法的流程示意圖。該數(shù)據(jù)伴隨分析方法包括以下步驟:

s300、接收用戶輸入的查詢信息。

其中查詢信息中包括查詢號碼和查詢時間段,其中,查詢號碼個數(shù)為1,將查詢號碼作為目標號碼。

當用戶試圖對目標號碼進行伴隨分析時,可以通過查詢界面輸入查詢信息,其中,查詢信息包括查詢號碼和查詢時間段。查詢號碼的個數(shù)可以為1個也可以為多個,本實施例中,以已知目標號碼和與該目標號碼進行比較的其他號碼作為一種應用場景進行說明,在該應用場景下查詢號碼中的一個作為目標號碼,剩余的查詢號碼作為其他號碼,其他號碼均與目標號碼進行比較,目標號碼之間不進行相互比較。

s301、對目標號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理以得到目標號碼的一維空間數(shù)據(jù)。

在接收到用戶輸入的查詢信息后執(zhí)行s301,s301的具體內(nèi)容可參見上述實施例一s101中的記載,此次不再贅述。

s302、利用目標號碼的一維空間數(shù)據(jù)和原始數(shù)據(jù)中的時間數(shù)據(jù)生成目標號碼的軌跡記錄。

其中,目標號碼的軌跡記錄用于記錄目標號碼在不同時間點上所處的位置,時間點對應原始數(shù)據(jù)中的時間數(shù)據(jù);所處的位置用一維空間數(shù)據(jù)表示。

s303、對目標號碼的軌跡記錄進行數(shù)據(jù)規(guī)整,以得到目標號碼的軌跡隊列。

其中,目標號碼的軌跡隊列用于記錄目標號碼在不同時間段內(nèi)所處 的位置,所述時間段由目標號碼的軌跡記錄中的時間點生成。

s304、對其他號碼原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理以得到其他號碼的一維空間數(shù)據(jù)。

s305、利用其他號碼的一維空間數(shù)據(jù)和原始數(shù)據(jù)中的時間數(shù)據(jù)生成其他號碼的軌跡記錄。

s306、對其他號碼的軌跡記錄進行數(shù)據(jù)規(guī)整,以得到其他號碼的軌跡隊列。

采用目標號碼s301~s303的處理過程對其他號碼進行操作,以得到其他號碼的軌跡隊列。具體處理過程參見上述實施例中相關內(nèi)容的記載,此次不再贅述。其中s301~s303與可以同步進行,也可以先執(zhí)行s301~s303,再執(zhí)行s304~s306。

s307、基于預設的伴隨相似度計算策略以及目標號碼的軌跡隊列和其他號碼的軌跡隊列,計算目標號碼與每個其他號碼之間的伴隨相似度。

將目標號碼的軌跡隊列中每一條記錄分別與每個其他號碼的軌跡隊列中每一條記錄進行比較,然后基于預設的伴隨相似度計算策略,計算目標號碼與每個其他號碼之間的伴隨相似度。其中,伴隨相似度計算策略,參見上述實施例一中相關內(nèi)容的記載,此次不再贅述。

為了更好地理解本實施例提供的數(shù)據(jù)伴隨分析方法,下面一個具體的例子進行解釋說明:

用戶輸入的查詢信息包括查詢號碼,其中查詢號碼中包括目標號碼和與該目標號碼進行比較的其他號碼。在該示例中查詢信息中攜帶兩個查詢,目標號碼為查詢號碼1(id1),待比較的其他號碼為查詢號碼2(id2),id1:155****2623,id2:150****8803;查詢時間段(time):2015-04-01_00:00:00——2015-04-06_23:59:59

id1在2015-04-01_00:00:00——2015-04-06_23:59:59內(nèi)的所有的原始數(shù)據(jù):

id2在2015-04-01_00:00:00——2015-04-06_23:59:59內(nèi)的所有原始數(shù)據(jù):

對查詢號碼原始數(shù)據(jù)中的二維數(shù)據(jù)進行降維處理以得到一維空間數(shù)據(jù),然后利用一維空間數(shù)據(jù)與原始數(shù)據(jù)中的時間數(shù)據(jù)生成查詢號碼的軌跡記錄。

id1的軌跡記錄如下:

id2的軌跡記錄如下:

對查詢號碼的軌跡記錄進行數(shù)據(jù)去重和稀疏處理后,得到查詢號碼的軌跡。具體地,對查詢號碼的軌跡記錄進行數(shù)據(jù)去重和稀疏處理的過程:將連續(xù)時間點處在位置相同的記錄合并,將表示最早時間的時間點作為該位置的開始時間,將表示最晚時間的時間點作為該位置的結束時間,對于不同位置的記錄,以該位置對應的時間點作為對應時間段的開始時間和結束時間,也就是說,時間段的開始和結束時間可以相同。

對id1的軌跡記錄進行相同的數(shù)據(jù)去重和稀疏處理過程,得到id1的軌跡如下:

對id2的軌跡記錄進行相同的數(shù)據(jù)去重和稀疏處理過程,得到id2的軌跡如下:

對目標號碼中每條軌跡的geohash編碼調(diào)整到預設位數(shù),對目標號碼的軌跡進行排序,調(diào)整軌跡的時間段的端點,使得相鄰的兩條軌跡的時間段的端點能夠重合,得到查詢號碼的軌跡隊列。具體地,按照開始時間從早到晚進行排序,排序后按照順序?qū)ο噜彽能壽E的時間段的端點進行調(diào)整,例如,將前一段的結束時間與后一段的開始時間的中間值分別作為前一段的結束時間和后一段的開始時間,使得相鄰的軌跡的時間段的端點重合,使得時間上可以對接起來,構成一個可比較的軌跡隊列。

id1的軌跡隊列如下:

id2的軌跡隊列如下:

根據(jù)預設的伴隨相似度計算策略,計算兩個查詢號碼之間的伴隨相似度。

geohash選擇保留7位,其中第5、6、7三位參與伴隨相似度的計算。首先判斷時間上有無交集,時間段是否有重疊,如1con1的起始時間在2conn的時間段范圍內(nèi),那1con1與2conn有時間交集。

不同的重復位對應不同的權重:設置的交集基數(shù)為1。geohash7位全相同,權重為1,geohash前6位相同,第7位不同,權重為0.5,geohash前5位相同,第6位不同,權重為0.25,geohash前5位都不同,或者時間上無交集權重都為為0。

將1con1分別與2con1~2con5相比較,其中,1con1與2con1、2con2、2con3以及2con5在時間上無交集;1con1與2con4時間上有交集,geohash前5位相同,第6位不同,交集數(shù)值=1*0.25;

類似地,將1con2分別與2con1~2con5相比較,其中,1con2與2con1、2con2、2con3以及2con5在時間上無交集,1con2與2con4時間上有交集,geohash前5位相同,第6位不同,交集數(shù)值=1*0.25;

將1con3與2con1~2con5相比較,其中,1con3與2con1、2con2、2con3以及2con5在時間上無交集,1con3與2con4時間上有交集,geohash 前5位相同,第6位不同,交集數(shù)值=1*0.25;

將1con4分別與2con1~2con5相比較,其中,1con4與2con1、2con2、2con3以及2con5在時間上無交集,1con4與2con4時間上有交集,geohash前5位相同,第6位不同,交集數(shù)值=1*0.25;

1con5分別與2con1~2con5相比較,其中,1con4與2con1、2con2、2con3以及2con5在時間上無交集,1con5與2con4時間上有交集,geohash前5位相同,第6位不同,交集數(shù)值=1*0.25;

則目標號碼與其他號碼之間的伴隨相似度為:(+1*0.25+….+1*0.25)/(時間上有交集的次數(shù))=0.25。

在上述示例中,用戶可以指定兩個號碼進行比較,在經(jīng)過將二維空間數(shù)據(jù)降維后獲取到一維空間數(shù)據(jù),然后基于一維空間數(shù)據(jù)和時間數(shù)據(jù)構成可比較的軌跡序列,使用預設的伴隨相似度計算策略,獲取兩個號碼之間的伴隨相似度。

實施例四

如圖4所示,其為本發(fā)明實施例四的數(shù)據(jù)伴隨分析方法的流程示意圖。該數(shù)據(jù)伴隨分析方法包括以下步驟:

s400、接收用戶輸入的查詢信息。

其中查詢信息中包括查詢號碼和查詢時間段,其中,查詢號碼個數(shù)為1,將查詢號碼作為目標號碼。

當用戶試圖對目標號碼進行伴隨分析時,可以通過查詢界面輸入查詢信息,其中,查詢信息包括查詢號碼、查詢時間段和返回與目標號碼相似的潛在號碼的個數(shù)。本實施例中,以通過目標號碼獲取與該目標號碼相似軌跡的潛在號碼作為一種應用場景,此時查詢號碼的個數(shù)為1,在該應用場景下,將查詢號碼作為目標號碼。

s401、對目標號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理以得到目標號碼的一維空間數(shù)據(jù)。

在接收到用戶輸入的查詢信息后執(zhí)行s401,s401的具體內(nèi)容可參見上述實施例一s101中的記載,此次不再贅述。

s402、利用目標號碼的一維空間數(shù)據(jù)和原始數(shù)據(jù)中的時間數(shù)據(jù)生成 目標號碼的軌跡記錄。

其中,目標號碼的軌跡記錄用于記錄目標號碼在不同時間點上所處的位置,時間點對應原始數(shù)據(jù)中的時間數(shù)據(jù);所處的位置用一維空間數(shù)據(jù)表示。

s403、對目標號碼的軌跡記錄進行數(shù)據(jù)規(guī)整,以得到目標號碼的軌跡隊列。

其中,目標號碼的軌跡隊列用于記錄目標號碼在不同時間段內(nèi)所處的位置,所述時間段由目標號碼的軌跡記錄中的時間點生成。

s302~s303的具體內(nèi)容可參見上述實施例一s102~s103中的記載,此次不再贅述。

s404、從目標號碼的軌跡隊列中獲取目標號碼的可信區(qū)間。

本實施例中,目標號碼的軌跡隊列用于記錄目標號碼在不同時間段內(nèi)所處的位置,根據(jù)目標號碼的軌跡隊列,可以獲取到該目標號碼的可信區(qū)間,其中,可信區(qū)間包括可信時間域和可信空間域,其中可信時間閾為軌跡隊列中每條記錄中的時間段,可信空間域的具體過程:將軌跡隊列中每條記錄中所處位置進行閾值的修正,將修正后的位置作為可信空間域。例如,將每一個位置的geohash編碼中相同的前5位可以作為可信空間域。例如,geohash編碼中前五位表示北京,在前五位的基礎上加上四位可以表示到所處北京的具體區(qū)/縣。為了保證空間的可信度,將geohash編碼中的前5位作為可信空間域。

s405、根據(jù)可信區(qū)間獲取與目標號碼的軌跡記錄相似的潛在號碼。

在獲取到可信區(qū)間,根據(jù)該目標號碼的可信區(qū)間在查詢時間段內(nèi),查找與該目標號碼的軌跡記錄相似的潛在號碼。

s406、對潛在號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理以得到潛在號碼的一維空間數(shù)據(jù)。

s407、利用潛在號碼的一維空間數(shù)據(jù)和原始數(shù)據(jù)中的時間數(shù)據(jù)生成潛在號碼的軌跡記錄。

s408、對潛在號碼的軌跡記錄進行數(shù)據(jù)規(guī)整,以得到潛在號碼的軌跡隊列。

采用目標號碼s401~s403的處理過程對潛在號碼進行操作,以得到潛在號碼的軌跡隊列。具體處理過程參見上述實施例中相關內(nèi)容的記載,此次不再贅述。

s409、將潛在號碼作為其他號碼,基于預設的伴隨相似度計算策略以及目標號碼的軌跡隊列和其他號碼的軌跡隊列,計算目標號碼與每個其他號碼之間的伴隨相似度。

在獲取到潛在號碼后,將潛在號碼作為其他號碼,將目標號碼的軌跡隊列中每一條記錄分別與每個其他號碼的軌跡隊列中每一條記錄進行比較,然后基于預設的伴隨相似度計算策略,計算目標號碼與每個其他號碼之間的伴隨相似度。

其中,伴隨相似度計算策略,參見上述實施例一中相關內(nèi)容的記載,此次不再贅述。

s410、將目標號碼與每個潛在號碼之間的伴隨相似度進行排序,以得到目標號碼的伴隨相似度列表。

在獲取到目標號碼與每個潛在號碼之間的伴隨相似度后,可以將這些伴隨相似度按照從大到小的順序進行排序,按照順序生成該目標號碼的伴隨相似度列表。本實施例中,從排序后的所有伴隨相似度中選取前幾位生成該目標號碼的伴隨相似度列表。

為了更好地理解本實施例提供的數(shù)據(jù)伴隨分析方法,下面一個具體的例子進行解釋說明:

用戶輸入的查詢信息包括查詢號碼:155****2623;查詢時間段:time:2015-04-01_00:00:00——2015-04-06_23:59:59;返回與目標號碼相似的潛在號碼個數(shù):topn:3;其中,查詢號碼即目標號碼。

目標號碼在查詢時間段內(nèi)的原始數(shù)據(jù)記錄:

目標號碼經(jīng)過降維處理以及數(shù)據(jù)規(guī)整后,得到目標號碼id的軌跡隊列如下。其中關于對目標號碼降維處理以及數(shù)據(jù)規(guī)整的過程,可參見上述實施例二中相關示例中的記載,此處不再贅述。

從目標號碼的軌跡隊列中獲取可信區(qū)間,該可信區(qū)間包括時間可信區(qū)間和空間可信區(qū)間;即目標號碼軌跡隊列中包括的時間段以及位置。

根據(jù)可信區(qū)間獲取與目標號碼的軌跡記錄相似的潛在號碼。具體地,.查詢與目標號碼軌跡隊列中每一個記錄1coni(i=1,2,3,…5)相似軌跡記錄:查找相似軌跡,從原始數(shù)據(jù)中找出與1coni有時間交集并且geohash前5位全部相同的記錄。

在查找完成后,將與目標號碼每一條記錄命中的個數(shù)取3個號碼作為潛在號碼,其中,潛在號碼中不包括目標號碼本身。

潛在號碼按照命中次數(shù)排序為:

則選取151****1306、152****8808和152****3889作為潛在號碼,然后分別計算目標號碼與選中的三個潛在號碼的伴隨相似度,計算過程與上述實施例二中計算兩個已知查詢號碼的伴隨相似度類似,此次不再贅述。

對目標號碼的伴隨相似度進行排序后,取前三位潛在號碼以及伴隨相似度生成目標號碼的伴隨相似度列表,該列表如下所示:

號碼相似度

151****13060.72

152****88080.62

152****38890.33

在該示例中個,用戶可以指定一個目標號碼,然后基于目標號碼的軌跡查找到軌跡相似的潛在號碼作為其他號碼,基于目標號碼與潛在號碼的軌跡序列,使用預設的伴隨相似度計算策略,獲取兩個號碼之間的伴隨相似度。

實施例五

如圖5所示,其為本發(fā)明實施例五的數(shù)據(jù)伴隨分析方法的流程示意圖。該數(shù)據(jù)伴隨分析裝置包括:降維模塊11、數(shù)據(jù)轉(zhuǎn)換模塊12和計算模 塊13。

其中,降維模塊11,用于對目標號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理以得到所述目標號碼的一維空間數(shù)據(jù)。

在號碼移動的過程中,會產(chǎn)生很多的定位數(shù)據(jù),一般情況下,這些定位數(shù)據(jù)包括用于表示位置信息的空間維度的數(shù)據(jù)和用于表示時間的時間維度的數(shù)據(jù),其中,空間維度的數(shù)據(jù)由經(jīng)度和緯度數(shù)據(jù)構成。本實施例中,將號碼移動過程中產(chǎn)生的定位數(shù)據(jù)定義為原始數(shù)據(jù),通過原始數(shù)據(jù)可以表示該號碼在不同時刻所處的位置。

為了減低原始數(shù)據(jù)的維度,來簡化定位數(shù)據(jù),本實施例中,降維模塊11將目標號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)降維成一維空間數(shù)據(jù),具體地,降維模塊11對目標數(shù)據(jù)的二維空間數(shù)據(jù)即經(jīng)緯度數(shù)據(jù)進行空間hash化處理,將二維空間數(shù)據(jù)映射成一元的geohash編碼,即將經(jīng)緯度依次迭代映射成32進制的編碼中。本實施例中,該一元geohash編碼就是該目標號碼的一維空間數(shù)據(jù),此時就可以通過該geohash編碼表示目標號碼所處的位置。

數(shù)據(jù)轉(zhuǎn)換模塊12,用于將目標號碼的一維空間數(shù)據(jù)和時間數(shù)據(jù)轉(zhuǎn)換成可比較的目標號碼的軌跡隊列。

具體地,數(shù)據(jù)轉(zhuǎn)換模塊12利用所述目標號碼的一維空間數(shù)據(jù)和所述原始數(shù)據(jù)中的時間數(shù)據(jù)生成所述目標號碼的軌跡記錄。

其中所述目標號碼的軌跡記錄用于記錄所述目標號碼在不同時間點上所處的位置,時間點對應原始數(shù)據(jù)中的時間數(shù)據(jù);所處的位置用一維空間數(shù)據(jù)表示。

原始數(shù)據(jù)中的二維空間數(shù)據(jù)轉(zhuǎn)換成一維空間數(shù)據(jù)后,其對應的時間數(shù)據(jù)不會發(fā)生變化。在獲取到目標號碼的一維空間數(shù)據(jù)后,數(shù)據(jù)轉(zhuǎn)換模塊12將該一維空間數(shù)據(jù)與原始數(shù)據(jù)中與該一維空間數(shù)據(jù)對應的時間數(shù)據(jù)結合,就能夠構成該目標號碼的軌跡記錄。本實施例中,該目標號碼的軌跡記錄能夠表示出該目標號碼在不同時間點所處的位置,時間點對應原始數(shù)據(jù)中的時間數(shù)據(jù)。所處位置用一位空間數(shù)據(jù)表示。

進一步地,數(shù)據(jù)轉(zhuǎn)換模塊12對所述目標號碼的軌跡記錄進行數(shù)據(jù)規(guī) 整,以得到所述目標號碼的軌跡隊列。

其中,所述目標號碼的軌跡隊列用于記錄所述目標號碼在不同時間段內(nèi)所處的位置,其中,所述時間段由所述目標號碼的軌跡記錄中的時間點生成。

目標號碼的軌跡記錄是一種時間點的記錄,進一步地,數(shù)據(jù)轉(zhuǎn)換模塊12對目標號碼的軌跡記錄進行數(shù)據(jù)規(guī)整,將目標號碼的軌跡記錄從時間點的記錄方式轉(zhuǎn)換成時間段的記錄方式。具體地,針對目標號碼的軌跡記錄中不同時間點處在相同位置的記錄,將表示最早時間的時間點作為該相同位置的開始時間,將表示最晚時間的時間點作為該相同位置的結束時間,得到該相同位置對應的軌跡。實際應用中,原始數(shù)據(jù)的數(shù)據(jù)密度大,不宜直接處理,本實施例中將位置相同的記錄基于時間點進行合并后,可以先去除重復的記錄,能夠起到簡化數(shù)據(jù)的作用。

數(shù)據(jù)轉(zhuǎn)換模塊12對所述目標號碼的軌跡記錄進行數(shù)據(jù)規(guī)整,以得到所述目標號碼的軌跡隊列的具體地過程如下:

針對目標號碼的軌跡記錄中不同時間點處在不同位置的記錄,將時間點作為該不同位置的開始時間和結束時間,得到該不同位置對應的軌跡。

在完成從時間點的記錄格式轉(zhuǎn)換到時間段的記錄格式后,各軌跡的時間段之間是不連續(xù)的。為了能夠?qū)⒛繕颂柎a的軌跡進行比較,需要將不連續(xù)的時間段進行連續(xù)化處理。具體地,首先將目標號碼的所有軌跡中geohash編碼調(diào)整成預設位置,然后需要對軌跡的時間段的端點進行調(diào)整,以構建可進行比較的目標號碼的軌跡隊列。首先,將目標號碼的所有軌跡按照開始時間從早到晚進行排序,按序?qū)δ繕颂柎a中相鄰的軌跡的時間段的端點進行調(diào)整,以使相鄰的軌跡的時間段的端點重合,在完成所有的軌跡的時間段端點的調(diào)整后,得到目標號碼的軌跡隊列。其中,本實施例中,時間段的端點就是時間段的開始時間和結束時間。例如,當前軌跡的時間段的上端點即開始時間為上一個軌跡的結束時間和自身開始時間的中間值,當前軌跡的時間段的下端點即結束時間為自身的結束時間與下一個軌跡的開始時間的中間值。例如,將當前軌跡的時間段 的下端點維持不變,而將下一個軌跡的時間段的上端點值調(diào)整為當前軌跡的時間段的上端點值,使得相鄰的軌跡的時間段的端點重合。

計算模塊13,用于基于所述目標號碼的軌跡隊列計算與其他號碼之間的伴隨相似度。

在獲取到目標號碼的軌跡隊列后,可以用相同的過程獲取其他號碼的軌跡隊列,計算模塊13將基于目標號碼的軌跡隊列和其他號碼的軌跡隊列進行比較,基于預設的伴隨相似度策略獲取目標號碼和其他號碼之間的伴隨相似度,本實施例中,其他號碼可以為一個也可以是多個。可選地,其他號碼可以用戶輸入,也可以根據(jù)目標號碼查詢到的軌跡相似的號碼。

關于預設的伴隨相似度計算策略可參見上述實施例中相關內(nèi)容的記載,此處不再贅述。

本實施例提供的數(shù)據(jù)伴隨分析裝置,通過將目標號碼原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理成目標號碼的一維空間數(shù)據(jù),利用目標號碼的一維空間數(shù)據(jù)和原始數(shù)據(jù)中的時間數(shù)據(jù)構成目標號碼的軌跡記錄,通過數(shù)據(jù)規(guī)則處理將目標號碼的軌跡記錄轉(zhuǎn)換成可比較的目標軌跡隊列,基于目標號碼的軌跡隊列計算與其他號碼之間的伴隨相似度。本實施例中,通過降維處理簡化原始數(shù)據(jù),不再通過數(shù)學模型進行擬合處理,降低復雜度,提高伴隨分析的時效性。

實施例六

如圖6所示,其為本發(fā)明實施例五的數(shù)據(jù)伴隨分析方法的流程示意圖。該數(shù)據(jù)伴隨分析裝置除了包括上述實例四中的降維模塊11、數(shù)據(jù)轉(zhuǎn)換模塊12和計算模塊13之外,還包括接收模塊14、可信區(qū)間獲取模塊15和查找模塊16。

其中,降維模塊11,具體用于對所述目標號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)進行二維空間哈希hash化,以得到一元geohash編碼作為所述目標號碼的一維空間數(shù)據(jù)。

本實施例中,數(shù)據(jù)轉(zhuǎn)換模塊12的一種可選地結構方式,包括:軌跡記錄單元121和軌跡隊列單元122。

軌跡記錄單元121,用于利用所述目標號碼的一維空間數(shù)據(jù)和所述原始數(shù)據(jù)中的時間數(shù)據(jù)生成所述目標號碼的軌跡記錄;其中所述目標號碼的軌跡記錄用于記錄所述目標號碼在不同時間點上所處的位置,時間點對應原始數(shù)據(jù)中的時間數(shù)據(jù);所處的位置用一維空間數(shù)據(jù)表示。

軌跡隊列單元122,用于對所述目標號碼的軌跡記錄進行數(shù)據(jù)規(guī)整,以得到所述目標號碼的軌跡隊列;其中,所述目標號碼的軌跡隊列用于記錄所述目標號碼在不同時間段內(nèi)所處的位置,其中,所述時間段由所述目標號碼的軌跡記錄中的時間點生成。

本實施例中,軌跡隊列單元122的一種可選地結構方法,包括:獲取子單元1221、位數(shù)調(diào)整子單元1222、排序子單元1223和時間調(diào)整子單元1224。

獲取子單元1221,用于針對所述目標號碼的軌跡記錄中不同時間點處在相同位置的記錄,將表示最早時間的時間點作為所述相同位置的開始時間,將表示最晚時間的時間點作為所述相同位置的結束時間,得到所述相同位置對應的軌跡,以及針對所述目標號碼的軌跡記錄中不同時間點處在不同位置的記錄,將時間點作為所述不同位置的開始時間和結束時間,得到所述不同位置對應的軌跡。

位數(shù)調(diào)整子單元1222,用于將所述目標號碼中每條軌跡中所述geohash編碼的位數(shù)調(diào)整到預設位數(shù)。

排序子單元1223,用于將所述目標號碼的所有軌跡按照開始時間從早到晚進行排序。

時間調(diào)整子單元1224,用于對所述目標號碼中相鄰的軌跡的時間段的端點進行調(diào)整,以使相鄰的軌跡的時間段的端點重合,得到所述目標號碼的軌跡隊列。

接收模塊14,用于接收用戶輸入的查詢信息,所述查詢信息中包括查詢號碼和查詢時間段,其中,所述查詢號碼個數(shù)為1,將所述查詢號碼作為所述目標號碼。

可信區(qū)間獲取模塊15,用于根據(jù)所述目標號碼的軌跡隊列獲取所述目標號碼的可信區(qū)間。

查找模塊16,用于根據(jù)所述可信區(qū)間獲取與所述目標號碼的軌跡記錄相似的潛在號碼。

進一步地,降維模塊11,還用于對所述潛在號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理以得到所述潛在號碼的一維空間數(shù)據(jù)。

軌跡記錄單元121,還用于利用所述潛在號碼的一維空間數(shù)據(jù)和所述原始數(shù)據(jù)中的時間數(shù)據(jù)生成所述潛在號碼的軌跡記錄。

軌跡隊列單元122,還用于對所述潛在號碼的軌跡記錄進行數(shù)據(jù)規(guī)整,以得到所述潛在號碼的軌跡隊列。

計算模塊13,具體用于將所述潛在號碼作為所述其他號碼,基于預設的伴隨相似度計算策略,計算所述目標號碼與每個所述其他號碼之間的伴隨相似度。

計算模塊13,還用于將所述目標號碼與每個所述潛在號碼之間的伴隨相似度進行排序,以得到所述目標號碼的伴隨相似度列表。

進一步地,接收模塊15,還用于接收用戶輸入的查詢信息,所述查詢信息中包括查詢號碼和查詢時間段,其中,所述查詢號碼個數(shù)至少為2,將其中一個查詢號碼作為所述目標號碼,剩余查詢號碼作為所述其他號碼。

進一步地,降維模塊11,還用于對所述潛在號碼的原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理以得到所述潛在號碼的一維空間數(shù)據(jù);

軌跡記錄單元121,還用于利用所述潛在號碼的一維空間數(shù)據(jù)和所述原始數(shù)據(jù)中的時間數(shù)據(jù)生成所述潛在號碼的軌跡記錄;

軌跡隊列單元122,還用于對所述潛在號碼的軌跡記錄進行數(shù)據(jù)規(guī)整,以得到所述潛在號碼的軌跡隊列。

計算模塊13,具體用于基于預設的伴隨相似度計算策略,計算所述目標號碼與每個所述其他號碼之間的伴隨相似度。

本實施例中,計算模塊13的一種可選地結構方法,包括:地理分層單元131、預設單元132、比較單元133、判斷單元134和權重計算單元135、相似度計算單元136。

其中,地理分層單元131,用于對預設位數(shù)的所述geohash編碼進行 地理分層。

預設單元132,用于為所述geohash編碼的每個層次設置不同的權重。

比較單元133,用于將目標號碼軌跡隊列中每一條記錄與其他號碼中每一條記錄進行比較。

判斷單元134,用于判斷相互比較的兩條記錄在時間上是否存在交集。

權重計算單元135,用于如果判斷存在交集,獲取相互比較的兩條記錄中所述geohash編碼之間的重復的層次,以及根據(jù)與所述重復的層次對應的權重以及預設的交集基數(shù)獲取交集數(shù)值。

相似度計算單元136,用于將所有交集數(shù)值相加后與交集的次數(shù)做比值,將所述比值作為所述目標號碼與所述其他號碼之間的伴隨相似度。

本實施例提供的數(shù)據(jù)伴隨分析裝置,通過將目標號碼原始數(shù)據(jù)中二維空間數(shù)據(jù)進行降維處理成目標號碼的一維空間數(shù)據(jù),利用目標號碼的一維空間數(shù)據(jù)和原始數(shù)據(jù)中的時間數(shù)據(jù)構成目標號碼的軌跡記錄,通過數(shù)據(jù)規(guī)則處理將目標號碼的軌跡記錄轉(zhuǎn)換成可比較的目標軌跡隊列,基于目標號碼的軌跡隊列計算與其他號碼之間的伴隨相似度。本實施例中,通過降維處理簡化原始數(shù)據(jù),不再通過數(shù)學模型進行擬合處理,降低復雜度,提高伴隨分析的時效性。

本領域普通技術人員可以理解:實現(xiàn)上述各方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成。前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中。該程序在執(zhí)行時,執(zhí)行包括上述各方法實施例的步驟;而前述的存儲介質(zhì)包括:rom、ram、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

最后應說明的是:以上各實施例僅用以說明本發(fā)明的技術方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質(zhì)脫離本發(fā)明各實施例技術方案的范圍。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1