
本申請涉及計(jì)算機(jī)
技術(shù)領(lǐng)域:
,尤其涉及一種對(duì)象匹配方法及裝置。
背景技術(shù):
:現(xiàn)實(shí)世界中的實(shí)體在互聯(lián)網(wǎng)世界中的不同平臺(tái)可能會(huì)同時(shí)存在著多個(gè)索引(也可稱為對(duì)象)。例如:一家商家會(huì)在不同的外賣平臺(tái)都設(shè)有店鋪,因?yàn)椴煌脚_(tái)的數(shù)據(jù)管理規(guī)范、流程、展示格式的不同,這些店鋪的店鋪名、地址會(huì)有一定的差異。通過計(jì)算不同來源的各個(gè)店鋪之間的匹配關(guān)系,能夠確定這些店鋪是否屬于同一商家,從而便于外賣平臺(tái)上店鋪的管理。為了解決不同來源的對(duì)象的匹配問題,可以對(duì)多個(gè)對(duì)象中任意兩個(gè)對(duì)象進(jìn)行匹配度的計(jì)算,但是該匹配計(jì)算方案的難度在于:計(jì)算量太大,其時(shí)間和空間復(fù)雜度的基數(shù)都是o(n2),o表示空間復(fù)雜度。當(dāng)對(duì)象的數(shù)量級(jí)太大時(shí),這種匹配計(jì)算方法在時(shí)間和空間上都是很難做到的。每一個(gè)對(duì)象都具備一些屬性,目前已知的對(duì)象匹配問題的解決方案主要通過以下步驟實(shí)現(xiàn):步驟1,建立各個(gè)對(duì)象與其屬性的索引關(guān)系。假設(shè)現(xiàn)有三個(gè)對(duì)象:甲、乙、丙,對(duì)象甲具備屬性a、b,對(duì)象乙具備屬性b、c,對(duì)象丙具備屬性a、b、c。各個(gè)對(duì)象與其屬性的索引關(guān)系如表1所示。表1對(duì)象屬性甲a、b乙b、c丙a、b、c步驟2,建立各個(gè)屬性與其對(duì)應(yīng)的對(duì)象的索引關(guān)系。即屬性a對(duì)應(yīng)對(duì)象甲、丙; 屬性b對(duì)應(yīng)對(duì)象甲、乙、丙;屬性c對(duì)應(yīng)對(duì)象乙、丙。各個(gè)屬性與其對(duì)應(yīng)的對(duì)象的索引關(guān)系如表2所示。表2屬性對(duì)象a甲、丙b甲、乙、丙c乙、丙步驟3,針對(duì)每一個(gè)屬性所對(duì)應(yīng)的所有對(duì)象,進(jìn)行兩兩匹配度的計(jì)算,從而得到任意兩個(gè)對(duì)象之間的匹配關(guān)系,可以較大程度地減少計(jì)算量。上述解決方案與前面介紹的匹配計(jì)算方案相比,雖然在很大程度上減少了計(jì)算量,但實(shí)際上還是會(huì)出現(xiàn)很大的數(shù)據(jù)冗余。例如:對(duì)象甲和對(duì)象丙同時(shí)在屬性a和屬性b中出現(xiàn),會(huì)導(dǎo)致重復(fù)的計(jì)算;或者,如果有一個(gè)通用的屬性(例如極端情況下每個(gè)對(duì)象都有一個(gè)相同的屬性),則導(dǎo)致計(jì)算量非常大,當(dāng)然,一般計(jì)算過程中會(huì)人為過濾掉這樣的屬性,但其過濾閾值是非常難以拿捏的。針對(duì)傳統(tǒng)對(duì)象匹配計(jì)算方法中復(fù)雜度過高的問題,目前尚未提出有效的解決方案。技術(shù)實(shí)現(xiàn)要素:本申請目的在于提供一種對(duì)象匹配方法及裝置,可以減小對(duì)象匹配的計(jì)算量,提高對(duì)象匹配的計(jì)算精度。本申請?zhí)峁┮环N對(duì)象匹配方法及裝置是這樣實(shí)現(xiàn)的:一種對(duì)象匹配方法,所述方法包括:獲取多個(gè)對(duì)象中各個(gè)對(duì)象的屬性;對(duì)所述多個(gè)對(duì)象及所述屬性進(jìn)行整合,建立對(duì)象與屬性的對(duì)應(yīng)關(guān)系;其中,每個(gè)屬性對(duì)應(yīng)至少一個(gè)對(duì)象;基于所述對(duì)應(yīng)關(guān)系確定所述多個(gè)對(duì)象中各個(gè)對(duì)象相互之間的相似度;根據(jù)所述相似度確定所述多個(gè)對(duì)象中各個(gè)對(duì)象相互之間的匹配關(guān)系。一種對(duì)象匹配裝置,所述裝置包括:屬性獲取單元,用于獲取多個(gè)對(duì)象中各個(gè)對(duì)象的屬性;關(guān)系建立單元,用于對(duì)所述多個(gè)對(duì)象及所述屬性進(jìn)行整合,建立對(duì)象與屬性的對(duì)應(yīng)關(guān)系;其中,每個(gè)屬性對(duì)應(yīng)至少一個(gè)對(duì)象;相似度確定單元,用于基于所述對(duì)應(yīng)關(guān)系確定所述多個(gè)對(duì)象中各個(gè)對(duì)象相互之間的相似度;匹配確定單元,用于根據(jù)所述相似度確定所述多個(gè)對(duì)象中各個(gè)對(duì)象相互之間的匹配關(guān)系。本申請?zhí)峁┑膶?duì)象匹配方法及裝置,基于對(duì)象的屬性進(jìn)行對(duì)象之間相似度的計(jì)算,從而確定對(duì)象之間的匹配關(guān)系。具體實(shí)施過程中可以基于對(duì)象的屬性建立對(duì)象與屬性之間的對(duì)應(yīng)關(guān)系(即每個(gè)屬性與其所對(duì)應(yīng)的至少一個(gè)對(duì)象之間的關(guān)系),再基于圖計(jì)算模型計(jì)算對(duì)象之間的相似度,從而大大減少計(jì)算量,提高對(duì)象匹配的計(jì)算精度。附圖說明此處所說明的附圖用來提供對(duì)本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實(shí)施例及其說明用于解釋本申請,并不構(gòu)成對(duì)本申請的限定。在附圖中:圖1是本申請所述對(duì)象匹配方法一種實(shí)施例的方法流程圖;圖2是本申請一實(shí)施例的對(duì)象與其屬性的對(duì)應(yīng)關(guān)系示意圖;圖3是本申請一實(shí)施例的屬性與其對(duì)應(yīng)的對(duì)象的對(duì)應(yīng)關(guān)系示意圖;圖4是本申請一實(shí)施例的bsp架構(gòu)示意圖;圖5是本申請一實(shí)施例的bsp程序垂直結(jié)構(gòu)示意圖;圖6是本申請一實(shí)施例的bsp程序水平結(jié)構(gòu)示意圖;圖7是本申請一實(shí)施例的屬性權(quán)重計(jì)算示意圖;圖8是本申請一實(shí)施例的消息匯總示意圖;圖9是本申請一實(shí)施例的各個(gè)對(duì)象的消息精簡示意圖;圖10是本申請一實(shí)施例的各個(gè)對(duì)象的消息精簡優(yōu)化示意圖;圖11是本申請所述對(duì)象匹配裝置一種實(shí)施例的結(jié)構(gòu)示意圖;圖12是本申請?zhí)峁┑乃鰧傩垣@取單元一種實(shí)施例的結(jié)構(gòu)示意圖;圖13是本申請?zhí)峁┑乃鱿嗨贫却_定單元一種實(shí)施例的結(jié)構(gòu)示意圖;圖14是本申請?zhí)峁┑乃鲞\(yùn)算模塊一種實(shí)施例的結(jié)構(gòu)示意圖。具體實(shí)施方式為了使本
技術(shù)領(lǐng)域:
的人員更好地理解本申請中的技術(shù)方案,下面將結(jié)合本申請實(shí)施例中的附圖,對(duì)本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾堉械膶?shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請保護(hù)的范圍。下面結(jié)合附圖對(duì)本申請所述的對(duì)象匹配方法及裝置進(jìn)行詳細(xì)的說明。圖1是本申請所述對(duì)象匹配方法一種實(shí)施例的方法流程圖。雖然本申請?zhí)峁┝巳缦率鰧?shí)施例或附圖所示的方法操作步驟或裝置結(jié)構(gòu),但基于常規(guī)或者無需創(chuàng)造性的勞動(dòng)在所述方法或裝置中可以包括更多或者更少的操作步驟或模塊結(jié)構(gòu)。在邏輯性上不存在必要因果關(guān)系的步驟或結(jié)構(gòu)中,這些步驟的執(zhí)行順序或裝置的模塊結(jié)構(gòu)不限于本申請實(shí)施例提供的執(zhí)行順序或模塊結(jié)構(gòu)。所述的方法或模塊結(jié)構(gòu)在實(shí)際中的裝置或終端產(chǎn)品執(zhí)行時(shí),可以按照實(shí)施例或者附圖所示的方法或模塊結(jié)構(gòu)連接進(jìn)行順序執(zhí)行或者并行執(zhí)行(例如并行處理器或者多線程處理的環(huán)境)。在本申請中,對(duì)象主要是指現(xiàn)實(shí)世界中的實(shí)體在互聯(lián)網(wǎng)世界的不同地方所對(duì)應(yīng)存在的客體,本申請通過對(duì)不同對(duì)象之間匹配關(guān)系的計(jì)算,可以獲知互聯(lián)網(wǎng)世界中多個(gè)客體是否屬于現(xiàn)實(shí)世界中的同一個(gè)實(shí)體,并且能保證較小的計(jì)算量和較高的計(jì)算精度。本申請可以以外賣平臺(tái)上的外賣商家為例進(jìn)行對(duì)象匹配方案的具體說明,具體的如圖1所示,本申請?zhí)峁┑膶?duì)象匹配方法的一種實(shí)施例可以包括:步驟s101,獲取多個(gè)對(duì)象中各個(gè)對(duì)象的屬性。本申請為了準(zhǔn)確獲取每個(gè)對(duì)象的屬性,可以采取以下實(shí)施方式:首先,提取多個(gè)對(duì)象中各個(gè)對(duì)象的特征信息;然后,將每個(gè)對(duì)象的特征信息作為屬性,和/或,將每個(gè)對(duì)象的特征信息分解為多個(gè)特征信息,將分解后的特征信息作為屬性。例如:在外賣商家的應(yīng)用場景中,每個(gè)外賣商家(對(duì)象)的特征信息主要包括:店鋪名、店鋪地址、店鋪電話、菜品名等。其中,店鋪電話和簡單菜品名等這些數(shù)字或文字的數(shù)目較少的特征信息可直接作為外賣商家的屬性,店鋪名、店鋪地址和復(fù)雜菜品名等這些數(shù)字或文字的數(shù)目較多的特征信息,需要分解為數(shù)字或文字的數(shù)目較少的特征信息。為 了避免關(guān)鍵屬性的遺漏,一般可采用二元語法bigram或者三元語法trigram進(jìn)行特征信息的分解,對(duì)于上述二元語法,具體地,是依次將一個(gè)詞組中的連續(xù)兩個(gè)字作為一個(gè)詞語,例如某個(gè)外賣商家有一個(gè)菜品名是“黃燜雞米飯”,基于二元語法將特征信息“黃燜雞米飯”分解為多個(gè)特征信息:“黃燜”、“燜雞”、“雞米”和“米飯”。同理,三元語法是依次將一個(gè)詞組中的連續(xù)三個(gè)字作為一個(gè)詞語,例如將特征信息“黃燜雞米飯”分解為多個(gè)特征信息:“黃燜雞”、“燜雞米”和“雞米飯”。通過上述分解方法,可以將數(shù)字或文字的數(shù)目較多的特征信息分解為多個(gè)特征信息,便于確定更為有效的屬性,提高計(jì)算精度。當(dāng)然本申請也可以采用其他分解方法,只要能夠?qū)⑻卣餍畔⒎纸鉃槎鄠€(gè)特征信息,并保證不遺漏特征信息即可,本申請對(duì)此不做限制。步驟s102,對(duì)多個(gè)對(duì)象及屬性進(jìn)行整合,建立對(duì)象與屬性的對(duì)應(yīng)關(guān)系;其中,每個(gè)屬性對(duì)應(yīng)至少一個(gè)對(duì)象。需要說明的是,在前述步驟s101中可以確定每個(gè)對(duì)象與其屬性的對(duì)應(yīng)關(guān)系,本步驟是將所有對(duì)象與其屬性進(jìn)行整合,建立每個(gè)屬性與其對(duì)應(yīng)對(duì)象的對(duì)應(yīng)關(guān)系,從而可以獲知哪幾個(gè)對(duì)象具有相同的屬性。假設(shè)現(xiàn)有三個(gè)對(duì)象:甲、乙、丙,對(duì)象與其屬性的對(duì)應(yīng)關(guān)系如圖2所示,對(duì)象甲具備屬性a、b,對(duì)象乙具備屬性b、c,對(duì)象丙具備屬性a、b、c。對(duì)這三個(gè)對(duì)象與其屬性進(jìn)行整合,就可以建立屬性與其對(duì)應(yīng)的對(duì)象的對(duì)應(yīng)關(guān)系,圖3是本申請一實(shí)施例的屬性與其對(duì)應(yīng)的對(duì)象的對(duì)應(yīng)關(guān)系示意圖,如圖3所示,屬性a對(duì)應(yīng)的對(duì)象有甲、丙,屬性b對(duì)應(yīng)的對(duì)象有甲、乙、丙,屬性c對(duì)應(yīng)的對(duì)象有乙、丙。根據(jù)圖3所示的對(duì)應(yīng)關(guān)系,可清晰明了的獲知每個(gè)對(duì)象的屬性,以及每個(gè)屬性所對(duì)應(yīng)的對(duì)象。步驟s103,基于上述對(duì)應(yīng)關(guān)系確定多個(gè)對(duì)象中各個(gè)對(duì)象相互之間的相似度。本申請為了降低計(jì)算量,引入了圖計(jì)算模型進(jìn)行各個(gè)對(duì)象相互之間相似度的計(jì)算,其中,圖計(jì)算模型至少包括以下之一:開源圖計(jì)算模型graphlab、分布式圖處理模型graphx、整體同步并行計(jì)算模型(bulksynchronousparallel,簡稱bsp)。下面分別介紹各個(gè)圖計(jì)算模型。graphlab是由cmu(卡內(nèi)基梅隆大學(xué))的select實(shí)驗(yàn)室在2010年提出的一個(gè)基于圖像處理模型的開源圖計(jì)算框架,框架使用c++語言開發(fā)實(shí)現(xiàn)。該框架是面向機(jī)器學(xué)習(xí)的流處理并行計(jì)算框架,可以運(yùn)行在多處理機(jī)的單機(jī)系統(tǒng)、集群或是亞馬遜的 ec2等多種環(huán)境下??蚣艿脑O(shè)計(jì)目標(biāo)是,可以高效執(zhí)行與機(jī)器學(xué)習(xí)相關(guān)的、具有稀疏的計(jì)算依賴特性的迭代性算法,并且保證計(jì)算過程中數(shù)據(jù)的高度一致性和高效的并行計(jì)算性能。graphx是spark中用于圖和圖并行計(jì)算的api(applicationprogramminginterface,應(yīng)用程序編程接口)。跟其他分布式圖計(jì)算框架相比,graphx最大的貢獻(xiàn)是,在spark之上提供一棧式數(shù)據(jù)解決方案,可以方便且高效地完成圖計(jì)算的一整套流水作業(yè)。bsp是英國計(jì)算機(jī)科學(xué)家viliant在上世紀(jì)80年代提出的一種并行計(jì)算模型,該模型基于一個(gè)master協(xié)調(diào),所有worker同步執(zhí)行,數(shù)據(jù)從輸入的隊(duì)列中讀取,下面對(duì)bsp架構(gòu)進(jìn)行簡單的介紹。圖4是本申請一實(shí)施例的bsp架構(gòu)示意圖,如圖4所示,bsp架構(gòu)包括client(客戶端)、master(主進(jìn)程)和worker(工作進(jìn)程),client的主要工作包括:1、將數(shù)據(jù)輸入worker,2、通知master開始工作,3、等待master完成工作,4、從worker提取處理結(jié)束的數(shù)據(jù)。master的主要工作包括:1、從client接收到“啟動(dòng)”的消息,2、如下動(dòng)作不斷迭代直至所有沒有active的worker:啟動(dòng)所有active的節(jié)點(diǎn)進(jìn)行工作、等待所有worker完成工作、更新active的worker數(shù)量。worker的主要工作包括:1、將worker本身設(shè)置為active狀態(tài),2、如下動(dòng)作不斷迭代直至該worker本身至inactive狀態(tài):等待master“啟動(dòng)”的消息、從數(shù)據(jù)庫中讀取消息、在該worker中進(jìn)行消息處理等工作、發(fā)送消息、更新是否是active的狀態(tài)、通知master已經(jīng)完成該輪迭代的工作,3、當(dāng)有消息發(fā)送給該worker時(shí),將該worker設(shè)置為active狀態(tài)。bsp程序設(shè)計(jì)準(zhǔn)則是bulk同步,其獨(dú)特之處在于超步(superstep)概念的引入。一個(gè)bsp程序同時(shí)具有水平和垂直兩個(gè)方面的結(jié)構(gòu)。圖5是本申請一實(shí)施例的bsp程序垂直結(jié)構(gòu)示意圖,如圖5所示,在垂直結(jié)構(gòu)上,一個(gè)bsp程序由一系列串行的超步(superstep)組成,這種垂直結(jié)構(gòu)類似于一個(gè)串行程序結(jié)構(gòu)。圖6是本申請一實(shí)施例的bsp程序水平結(jié)構(gòu)示意圖,如圖6所示,在水平結(jié)構(gòu)上,在一個(gè)超步中,所有的進(jìn)程并行執(zhí)行局部計(jì)算。一個(gè)超步可分為三個(gè)階段:1)本地計(jì)算階段,每個(gè)處理器只對(duì)存儲(chǔ)本地內(nèi)存中的數(shù)據(jù)進(jìn)行本地計(jì)算。2)全局通信階段,對(duì)任何非本地?cái)?shù)據(jù)進(jìn)行操作。3)柵欄同步階段,等待所有通信行為的結(jié)束。本申請以bsp為例介紹各個(gè)對(duì)象相互之間相似度的計(jì)算過程。首先,將步驟s102中建立的對(duì)應(yīng)關(guān)系輸入圖計(jì)算模型(bsp)中,然后,基于圖計(jì)算模型執(zhí)行多個(gè)超步運(yùn)算,得到多個(gè)對(duì)象中各個(gè)對(duì)象相互之間的相似度。上述多個(gè)超步運(yùn)算主要包括以下步驟:步驟s103a,基于對(duì)應(yīng)關(guān)系確定每個(gè)屬性所對(duì)應(yīng)的對(duì)象。在圖計(jì)算模型中,各個(gè)對(duì)象和各個(gè)屬性均處于圖計(jì)算框架的各個(gè)節(jié)點(diǎn)處,各個(gè)節(jié)點(diǎn)之間可進(jìn)行消息交互。在確定每個(gè)屬性對(duì)應(yīng)的對(duì)象時(shí),是通過每個(gè)對(duì)象向其屬性發(fā)送消息來實(shí)現(xiàn)的,其中,發(fā)送的消息中攜帶有對(duì)象自身的標(biāo)識(shí)符,從而使得每個(gè)屬性在接收到消息后,可以獲知其對(duì)應(yīng)的是哪個(gè)對(duì)象。步驟s103b,根據(jù)每個(gè)屬性所對(duì)應(yīng)的對(duì)象計(jì)算每個(gè)屬性的權(quán)重;其中,權(quán)重是每個(gè)屬性所對(duì)應(yīng)對(duì)象個(gè)數(shù)的倒數(shù)。圖7是本申請一實(shí)施例的屬性權(quán)重計(jì)算示意圖,如圖7所示,屬性a所對(duì)應(yīng)的對(duì)象有甲和丙,即屬性a對(duì)應(yīng)的對(duì)象個(gè)數(shù)為2,則屬性a的權(quán)重是0.5;屬性b所對(duì)應(yīng)的對(duì)象有甲、乙和丙,即屬性b對(duì)應(yīng)的對(duì)象個(gè)數(shù)為3,則屬性b的權(quán)重是近似為0.3333;屬性c所對(duì)應(yīng)的對(duì)象有乙和丙,即屬性c對(duì)應(yīng)的對(duì)象個(gè)數(shù)為2,則屬性c的權(quán)重是0.5。步驟s103c,根據(jù)每個(gè)屬性的權(quán)重及對(duì)應(yīng)關(guān)系,確定各個(gè)對(duì)象的屬性的權(quán)重與該屬性對(duì)應(yīng)的對(duì)象。該步驟是通過各個(gè)屬性向其所對(duì)應(yīng)的對(duì)象發(fā)送消息來實(shí)現(xiàn)的,圖8是本申請一實(shí)施例的消息匯總示意圖,如圖8所示,屬性a將其自身的消息(屬性a的權(quán)重0.5以及屬性a對(duì)應(yīng)的對(duì)象有甲、丙)發(fā)送至其所對(duì)應(yīng)的對(duì)象甲和丙;屬性b將其自身的消息(屬性b的權(quán)重0.3333以及屬性b對(duì)應(yīng)的對(duì)象有甲、乙、丙)發(fā)送至其所對(duì)應(yīng)的對(duì)象甲、乙和丙;屬性c將其自身的消息(屬性c的權(quán)重0.5以及屬性c對(duì)應(yīng)的對(duì)象有乙、丙)發(fā)送至其所對(duì)應(yīng)的對(duì)象乙和丙?;诖?,對(duì)象甲匯總的消息包括:屬性a的權(quán)重0.5以及與屬性a對(duì)應(yīng)的對(duì)象甲、丙,屬性b的權(quán)重0.3333以及與屬性b對(duì)應(yīng)的對(duì)象甲、乙、丙;對(duì)象乙匯總的消息包括:屬性b的權(quán)重0.3333以及與屬性b對(duì)應(yīng)的對(duì)象甲、乙、丙,屬性c的權(quán)重0.5以及與屬性c對(duì)應(yīng)的對(duì)象乙、丙;對(duì)象丙匯總的消息包括:屬性a的權(quán)重0.5以及與屬性a對(duì)應(yīng)的對(duì)象甲、丙,屬 性b的權(quán)重0.3333以及與屬性b對(duì)應(yīng)的對(duì)象甲、乙、丙,屬性c的權(quán)重0.5以及與屬性c對(duì)應(yīng)的對(duì)象乙、丙。步驟s103d,根據(jù)各個(gè)對(duì)象的屬性的權(quán)重與該屬性對(duì)應(yīng)的對(duì)象,利用相似度公式確定各個(gè)對(duì)象與其他對(duì)象之間的相似度。在本申請中,任意兩個(gè)對(duì)象之間的相似度的計(jì)算,可以通過以下公式實(shí)現(xiàn):其中,ei表示對(duì)象i,ej表示對(duì)象j,a[i]是對(duì)象i的屬性的集合,a[j]是對(duì)象j的屬性的集合,wt表示對(duì)象i與對(duì)象j的共有屬性的權(quán)重,wk表示對(duì)象i的屬性的權(quán)重。也就是說,對(duì)象i與對(duì)象j之間的相似度計(jì)算中,被除數(shù)是兩個(gè)對(duì)象共有的一個(gè)或多個(gè)屬性的權(quán)重和,除數(shù)是對(duì)象i的屬性的權(quán)重和。其中,被除數(shù)的相關(guān)信息可以從圖8所示的消息匯總示意圖中得知,在對(duì)象甲的匯總消息中可以看出,對(duì)象甲與對(duì)象乙的共有屬性是屬性b,屬性b的權(quán)重是0.3333,對(duì)象甲與對(duì)象丙的共有屬性是屬性a和屬性b,屬性a的權(quán)重是0.5,屬性b的權(quán)重是0.3333?;谏鲜龉?,可以精確的計(jì)算出兩個(gè)對(duì)象之間的相似度,為后續(xù)根據(jù)相似度確定匹配關(guān)系提供較佳的參考依據(jù)。當(dāng)然,本申請也可以通過其他相似度計(jì)算公式來計(jì)算兩個(gè)對(duì)象之間的相似度,無論采用何種計(jì)算方法,只要能夠準(zhǔn)確獲得兩個(gè)對(duì)象之間的相似度即可。為了更加精簡計(jì)算量,本申請還提供了一種優(yōu)選實(shí)施方式,即在圖8所示的各個(gè)對(duì)象匯總的消息的基礎(chǔ)上,排除各個(gè)對(duì)象的屬性所對(duì)應(yīng)的對(duì)象中的各個(gè)對(duì)象自身,和/或,對(duì)多個(gè)對(duì)象進(jìn)行排序,在各個(gè)對(duì)象的屬性所對(duì)應(yīng)的對(duì)象中,排除順序比自身靠前的對(duì)象或者排除順序比自身靠后的對(duì)象。下面結(jié)合附圖介紹上述優(yōu)選實(shí)施方式的具體實(shí)現(xiàn)過程。圖9是本申請一實(shí)施例的各個(gè)對(duì)象的消息精簡示意圖,如圖9所示,將每個(gè)對(duì)象匯總的消息中排除對(duì)象自身。例如,在對(duì)象甲匯總的消息中,刪除掉對(duì)象甲;在對(duì)象乙匯總的消息中,刪除掉對(duì)象乙;在對(duì)象丙匯總的消息中,刪除掉對(duì)象丙。在后續(xù)的相似度計(jì)算過程中,由于無需計(jì)算各個(gè)對(duì)象與其自身之間的相似度,因此這些消息均是無用消息,將這些無用消息刪除掉,可以更利于消息的梳理,并節(jié)省內(nèi)存。進(jìn)一步地,將多個(gè)對(duì)象進(jìn)行排序,排序規(guī)則不限,只要將所有對(duì)象排出一個(gè)順序即可。例如可以根據(jù)對(duì)象的id值進(jìn)行排序,將每個(gè)對(duì)象匯總的消息中排除順序比自身靠前的對(duì)象或者排除順序比自身靠后的對(duì)象。圖10是本申請一實(shí)施例的各個(gè)對(duì)象的消息精簡優(yōu)化示意圖,如圖10所示,假設(shè)將對(duì)象甲、乙和丙排成甲>乙>丙的順序,將每個(gè)對(duì)象匯總的消息中排除順序比自身靠前的對(duì)象,即在對(duì)象甲匯總的消息中,沒有需要?jiǎng)h除的對(duì)象;在對(duì)象乙匯總的消息中,刪除掉對(duì)象甲;在對(duì)象丙匯總的消息中,刪除掉對(duì)象甲和對(duì)象乙。通過上述精簡操作,可以減少一半的重復(fù)計(jì)算量。在圖10中可以清晰明了的看出,對(duì)象甲與對(duì)象乙的共有屬性是屬性b,屬性b的權(quán)重是0.3333,對(duì)象甲與對(duì)象丙的共有屬性是屬性a和屬性b,屬性a的權(quán)重是0.5,屬性b的權(quán)重是0.3333。從而只保留了計(jì)算相似度所需要的必要消息,減少了內(nèi)存。步驟s104,根據(jù)相似度確定多個(gè)對(duì)象中各個(gè)對(duì)象相互之間的匹配關(guān)系。在本申請中,相似度與匹配關(guān)系正相關(guān),兩個(gè)對(duì)象之間相似度的數(shù)值越大,表示這兩個(gè)對(duì)象越相似。在實(shí)際應(yīng)用中,可以設(shè)置第一閾值和第二閾值,第一閾值大于第二閾值,具體的數(shù)值大小可以根據(jù)需求進(jìn)行設(shè)置。當(dāng)任意兩個(gè)對(duì)象之間的相似度高于第一閾值時(shí),可以確定兩個(gè)對(duì)象之間的匹配關(guān)系為模糊相同,當(dāng)任意兩個(gè)對(duì)象之間的相似度低于第二閾值時(shí),可以確定兩個(gè)對(duì)象之間的匹配關(guān)系為模糊不同?;诖耍梢源_定外賣平臺(tái)上的任意兩個(gè)店鋪是否屬于同一個(gè)商家,便于外賣平臺(tái)的管理?;谂c上述對(duì)象匹配方法相同的發(fā)明構(gòu)思,本申請?zhí)峁┮环N對(duì)象匹配裝置,如下面實(shí)施例所述。由于該對(duì)象匹配裝置解決問題的原理與對(duì)象匹配方法相似,因此該對(duì)象匹配裝置的實(shí)施可以參見對(duì)象匹配方法的實(shí)施,重復(fù)之處不再贅述。圖11是本申請所述對(duì)象匹配裝置一種實(shí)施例的結(jié)構(gòu)示意圖,如圖11所示,所述裝置可以包括:屬性獲取單元10,可以用于獲取多個(gè)對(duì)象中各個(gè)對(duì)象的屬性。屬性獲取單元10是對(duì)象匹配裝置中獲取多個(gè)對(duì)象中各個(gè)對(duì)象的屬性的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成對(duì)象屬性采集功能的輸入輸出接口、處理芯片等元器件。關(guān)系建立單元20,連接至屬性獲取單元10,可以用于對(duì)多個(gè)對(duì)象及屬性進(jìn)行整合,建立對(duì)象與屬性的對(duì)應(yīng)關(guān)系;其中,每個(gè)屬性對(duì)應(yīng)至少一個(gè)對(duì)象。關(guān)系建立單元20是對(duì)象匹配裝置中建立對(duì)象與屬性的對(duì)應(yīng)關(guān)系的部分,可以是軟件、硬件或二者 的結(jié)合,例如可以是完成對(duì)象及屬性整合功能的輸入輸出接口、處理芯片等元器件。相似度確定單元30,連接至關(guān)系建立單元20,可以用于基于對(duì)應(yīng)關(guān)系確定多個(gè)對(duì)象中各個(gè)對(duì)象相互之間的相似度。相似度確定單元30是對(duì)象匹配裝置中確定各個(gè)對(duì)象相互之間相似度的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成相似度計(jì)算功能的輸入輸出接口、處理芯片等元器件。匹配確定單元40,連接至相似度確定單元30,可以用于根據(jù)相似度確定多個(gè)對(duì)象中各個(gè)對(duì)象相互之間的匹配關(guān)系。匹配確定單元40是對(duì)象匹配裝置中確定各個(gè)對(duì)象相互之間匹配關(guān)系的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成結(jié)果導(dǎo)入導(dǎo)出功能的輸入輸出接口、處理芯片等元器件。本申請?zhí)峁┑膶?duì)象匹配裝置,基于對(duì)象的屬性進(jìn)行對(duì)象之間相似度的計(jì)算,從而確定對(duì)象之間的匹配關(guān)系。具體實(shí)施過程中可以基于對(duì)象的屬性建立對(duì)象與屬性之間的對(duì)應(yīng)關(guān)系(即每個(gè)屬性與其所對(duì)應(yīng)的至少一個(gè)對(duì)象之間的關(guān)系),再基于圖計(jì)算模型計(jì)算對(duì)象之間的相似度,從而大大減少計(jì)算量,提高對(duì)象匹配的計(jì)算精度。圖12是本申請?zhí)峁┑乃鰧傩垣@取單元一種實(shí)施例的結(jié)構(gòu)示意圖,如圖12所示,為了準(zhǔn)確提取各個(gè)對(duì)象的屬性,屬性獲取單元10可以包括:提取模塊101,用于提取多個(gè)對(duì)象中各個(gè)對(duì)象的特征信息;屬性確定模塊102,用于將每個(gè)對(duì)象的特征信息作為屬性;和/或,將每個(gè)對(duì)象的特征信息分解為多個(gè)特征信息,將分解后的特征信息作為屬性。具體地址,一般可采用二元語法bigram或者三元語法trigram進(jìn)行特征信息的分解,從而確定更為有效的屬性,提高計(jì)算精度。當(dāng)然本申請也可以采用其他分解方法,只要能夠?qū)⑻卣餍畔⒎纸鉃槎鄠€(gè)特征信息,并保證不遺漏特征信息即可,本申請對(duì)此不做限制。圖13是本申請?zhí)峁┑乃鱿嗨贫却_定單元一種實(shí)施例的結(jié)構(gòu)示意圖,如圖13所示,相似度確定單元30可以包括:輸入模塊301,用于將對(duì)應(yīng)關(guān)系輸入圖計(jì)算模型;運(yùn)算模塊302,用于基于圖計(jì)算模型執(zhí)行多個(gè)超步運(yùn)算,得到多個(gè)對(duì)象中各個(gè)對(duì)象相互之間的相似度。圖計(jì)算模型至少可以包括以下之一:bsp、graphlab、graphx。圖14是本申請?zhí)峁┑乃鲞\(yùn)算模塊一種實(shí)施例的結(jié)構(gòu)示意圖,如圖14所示,運(yùn)算模塊302可以包括:第一運(yùn)算子模塊312,用于基于對(duì)應(yīng)關(guān)系確定每個(gè)屬性所對(duì)應(yīng)的對(duì)象;第二運(yùn)算子模塊322,用于根據(jù)每個(gè)屬性所對(duì)應(yīng)的對(duì)象計(jì)算每個(gè)屬性的權(quán)重;其 中,權(quán)重是每個(gè)屬性所對(duì)應(yīng)對(duì)象個(gè)數(shù)的倒數(shù);第三運(yùn)算子模塊332,用于根據(jù)每個(gè)屬性的權(quán)重及對(duì)應(yīng)關(guān)系,確定各個(gè)對(duì)象的屬性的權(quán)重與該屬性對(duì)應(yīng)的對(duì)象;第四運(yùn)算子模塊342,用于根據(jù)各個(gè)對(duì)象的屬性的權(quán)重與該屬性對(duì)應(yīng)的對(duì)象,利用相似度公式確定各個(gè)對(duì)象與其他對(duì)象之間的相似度。其中,相似度公式是:其中,ei表示對(duì)象i,ej表示對(duì)象j,a[i]是對(duì)象i的屬性的集合,a[j]是對(duì)象j的屬性的集合,wt表示對(duì)象i與對(duì)象j的共有屬性的權(quán)重,wk表示對(duì)象i的屬性的權(quán)重。基于上述公式,運(yùn)算模塊302可以精確的計(jì)算出兩個(gè)對(duì)象之間的相似度,為后續(xù)匹配確定單元40根據(jù)相似度確定匹配關(guān)系提供較佳的參考依據(jù)。當(dāng)然,本申請也可以通過其他相似度計(jì)算公式來計(jì)算兩個(gè)對(duì)象之間的相似度,無論采用何種計(jì)算方法,只要能夠準(zhǔn)確獲得兩個(gè)對(duì)象之間的相似度即可。為了精簡計(jì)算量,運(yùn)算模塊302還可以包括:簡化子模塊,用于在第三運(yùn)算子模塊確定各個(gè)對(duì)象的屬性的權(quán)重與該屬性對(duì)應(yīng)的對(duì)象之后,排除各個(gè)對(duì)象的屬性所對(duì)應(yīng)的對(duì)象中的各個(gè)對(duì)象自身;和/或,對(duì)多個(gè)對(duì)象進(jìn)行排序,在各個(gè)對(duì)象的屬性所對(duì)應(yīng)的對(duì)象中,排除順序比自身靠前的對(duì)象;或者,排除順序比自身靠后的對(duì)象。從而減少了計(jì)算量,節(jié)省內(nèi)存。在本申請中,相似度與匹配關(guān)系正相關(guān),兩個(gè)對(duì)象之間相似度的數(shù)值越大,表示這兩個(gè)對(duì)象越相似。在實(shí)際應(yīng)用中,可以設(shè)置第一閾值和第二閾值,第一閾值大于第二閾值,具體的數(shù)值大小可以根據(jù)需求進(jìn)行設(shè)置?;诖耍旧暾?zhí)峁┝艘环N優(yōu)選實(shí)施方式,即上述匹配確定單元40可以包括:第一匹配模塊,用于當(dāng)多個(gè)對(duì)象中任意兩個(gè)對(duì)象之間的相似度高于第一閾值時(shí),確定兩個(gè)對(duì)象之間的匹配關(guān)系為相同;第二匹配模塊,用于當(dāng)多個(gè)對(duì)象中任意兩個(gè)對(duì)象之間的相似度低于第二閾值時(shí),確定兩個(gè)對(duì)象之間的匹配關(guān)系為不同?;诖耍梢源_定外賣平臺(tái)上的任意兩個(gè)店鋪是否屬于同一個(gè)商家,便于外賣平臺(tái)的管理。本申請?zhí)峁┑膶?duì)象匹配方法及裝置,基于圖計(jì)算模型的天然優(yōu)勢,很好地解決了傳統(tǒng)對(duì)象匹配計(jì)算方法中復(fù)雜度過高的問題,并且能自動(dòng)根據(jù)屬性的通用程度調(diào)整其權(quán)重,計(jì)算出合理的相似度。從而大大減少計(jì)算量,提高對(duì)象匹配的計(jì)算精度。盡管本申請內(nèi)容中提到對(duì)象及屬性的整合、確定對(duì)象之間的相似度、圖計(jì)算模型的描述,但是,本申請并不局限于必須是完全標(biāo)準(zhǔn)或者所提及的方式的計(jì)算處理情況。本申請中各個(gè)實(shí)施例所涉及的上述描述僅是本申請中的一些實(shí)施例中的應(yīng)用,在某些標(biāo)準(zhǔn)、模型、方法的基礎(chǔ)上略加修改后的實(shí)施方式也可以實(shí)行上述本申請各實(shí)施例的方案。當(dāng)然,在符合本申請上述各實(shí)施例的中所述的計(jì)算方法步驟的其他無創(chuàng)造性的變形,仍然可以實(shí)現(xiàn)相同的申請,在此不再贅述。雖然本申請?zhí)峁┝巳鐚?shí)施例或流程圖所述的方法操作步驟,但基于常規(guī)或者無創(chuàng)造性的勞動(dòng)可以包括更多或者更少的操作步驟。實(shí)施例中列舉的步驟順序僅僅為眾多步驟執(zhí)行順序中的一種方式,不代表唯一的執(zhí)行順序。在實(shí)際中的裝置或客戶端產(chǎn)品執(zhí)行時(shí),可以按照實(shí)施例或者附圖所示的方法順序執(zhí)行或者并行執(zhí)行(例如并行處理器或者多線程處理的環(huán)境)。上述實(shí)施例闡明的裝置或模塊,具體可以由計(jì)算機(jī)芯片或?qū)嶓w實(shí)現(xiàn),或者由具有某種功能的產(chǎn)品來實(shí)現(xiàn)。為了描述的方便,描述以上裝置時(shí)以功能分為各種模塊分別描述。在實(shí)施本申請時(shí)可以把各模塊的功能在同一個(gè)或多個(gè)軟件和/或硬件中實(shí)現(xiàn)。當(dāng)然,也可以將實(shí)現(xiàn)某功能的模塊由多個(gè)子模塊或子單元組合實(shí)現(xiàn)。本申請中所述的方法、裝置或模塊可以以計(jì)算機(jī)可讀程序代碼方式實(shí)現(xiàn)控制器按任何適當(dāng)?shù)姆绞綄?shí)現(xiàn),例如,控制器可以采取例如微處理器或處理器以及存儲(chǔ)可由該(微)處理器執(zhí)行的計(jì)算機(jī)可讀程序代碼(例如軟件或固件)的計(jì)算機(jī)可讀介質(zhì)、邏輯門、開關(guān)、專用集成電路(applicationspecificintegratedcircuit,asic)、可編程邏輯控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存儲(chǔ)器控制器還可以被實(shí)現(xiàn)為存儲(chǔ)器的控制邏輯的一部分。本領(lǐng)域技術(shù)人員也知道,除了以純計(jì)算機(jī)可讀程序代碼方式實(shí)現(xiàn)控制器以外,完全可以通過將方法步驟進(jìn)行邏輯編程來使得控制器以邏輯門、開關(guān)、專用集成電路、可編程邏輯控制器和嵌入微控制器等的形式來實(shí)現(xiàn)相同功能。因此這種控制器可以被認(rèn)為是一種硬件部件,而對(duì)其內(nèi)部包括的用于實(shí)現(xiàn)各種功能的裝置也可以視為硬件部件內(nèi)的結(jié)構(gòu)?;蛘呱踔?,可以將用于實(shí)現(xiàn)各種功能的裝置視為既可以是實(shí)現(xiàn)方法的軟件模塊又可以是硬件部件內(nèi)的結(jié)構(gòu)。本申請所述裝置中的部分模塊可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般 上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)、類等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本申請,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可借助軟件加必需的硬件的方式來實(shí)現(xiàn)?;谶@樣的理解,本申請的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,也可以通過數(shù)據(jù)遷移的實(shí)施過程中體現(xiàn)出來。該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如rom/ram、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),移動(dòng)終端,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。本說明書中的各個(gè)實(shí)施例采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同或相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。本申請的全部或者部分可用于眾多通用或?qū)S玫挠?jì)算機(jī)系統(tǒng)環(huán)境或配置中。例如:個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、移動(dòng)通信終端、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、可編程的電子設(shè)備、網(wǎng)絡(luò)pc、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。雖然通過實(shí)施例描繪了本申請,本領(lǐng)域普通技術(shù)人員知道,本申請有許多變形和變化而不脫離本申請的精神,希望所附的權(quán)利要求包括這些變形和變化而不脫離本申請的精神。當(dāng)前第1頁12