一種結(jié)合聚類和雙key值的高維向量檢索方法

文檔序號(hào)：6508464閱讀：224來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種結(jié)合聚類和雙key值的高維向量檢索方法
【專利摘要】本發(fā)明是一種結(jié)合聚類和雙key值的高維向量檢索方法。在本發(fā)明中，提出了一種結(jié)合聚類的雙key值索引結(jié)構(gòu)CDKB-tree，它首先采用聚類算法對(duì)高維向量集進(jìn)行簇劃分，然后為各簇?cái)?shù)據(jù)構(gòu)建雙key值擴(kuò)展B+-tree，形成CDKB-tree。進(jìn)行檢索時(shí)，只需對(duì)與查詢范圍相交的簇?cái)?shù)據(jù)進(jìn)行搜索，通過聚類實(shí)現(xiàn)第一次過濾，并通過主key和輔key(雙key值)，實(shí)現(xiàn)兩次key值過濾，只需對(duì)主key和輔key均在搜索范圍內(nèi)的那些高維向量與查詢向量間進(jìn)行相似度匹配計(jì)算。本發(fā)明提出的索引結(jié)構(gòu)通過聚類及簡(jiǎn)單的雙key值大小比較，大大地減少了相似度匹配的運(yùn)算量，極大地加快了檢索速度。
【專利說明】一種結(jié)合聚類和雙key值的高維向量檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于多媒體信息檢索、智能信息處理、數(shù)據(jù)挖掘等數(shù)據(jù)處理領(lǐng)域，具體涉及的是一種結(jié)合聚類和雙key值的高維向量檢索方法。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)和信息技術(shù)的發(fā)展，產(chǎn)生了海量的多媒體數(shù)據(jù)，如何在海量的多媒體數(shù)據(jù)庫中快速找到所需的信息是當(dāng)前多媒體數(shù)據(jù)庫領(lǐng)域研究的一個(gè)重點(diǎn)問題。傳統(tǒng)的方法是由人工對(duì)多媒體數(shù)據(jù)進(jìn)行標(biāo)注,然后通過文本檢索來實(shí)現(xiàn)多媒體信息檢索。然而人工標(biāo) 注存在工作量大和主觀性強(qiáng)的缺陷，對(duì)于爆炸式增長(zhǎng)的多媒體數(shù)據(jù)來說，完全人工標(biāo)注是不可實(shí)現(xiàn)的，因此需要研究基于內(nèi)容的多媒體信息檢索技術(shù)。
[0003]實(shí)現(xiàn)基于內(nèi)容的多媒體信息檢索的技術(shù)路線是:通過特征變換，將多媒體數(shù)據(jù)映射到高維空間中的點(diǎn)——特征向量，用該特征向量來描述多媒體對(duì)象，得到特征庫；然后用同樣的特征變換方法來提取查詢對(duì)象的特征向量，最后通過特征向量間的相似度匹配來實(shí) 現(xiàn)多媒體信息的相似檢索。因此多媒體信息的相似檢索轉(zhuǎn)變?yōu)樵诟呔S特征空間中尋找與給定查詢點(diǎn)最近的點(diǎn)集的過程。
[0004]要在高維空間中尋找與給定查詢點(diǎn)最相近的點(diǎn)集，最簡(jiǎn)單直觀的方法就是順序掃描，即依次將特征庫中的每個(gè)特征(高維向量)與查詢點(diǎn)進(jìn)行相似度匹配，返回最匹配的那些特征點(diǎn)集，得到檢索結(jié)果。順序掃描隨著特征庫中特征數(shù)目和特征維度的增加，計(jì)算消耗時(shí)間線性增大，當(dāng)特征庫中的特征數(shù)目很大時(shí)，順序掃描將不能滿足實(shí)時(shí)性需求。為了加快檢索速度，最常用的方法就是借助于高維索引技術(shù)。
[0005]為了實(shí)現(xiàn)對(duì)海量高維向量的管理，研究者們提出了大量的索引結(jié)構(gòu)，其中最為經(jīng) 典的是以R-tree為代表的R-tree家族系列索引結(jié)構(gòu)。R-tree是20世紀(jì)80年代由Guttman 提出的，用于管理多維矩形塊數(shù)據(jù)而設(shè)計(jì)的一種索引結(jié)構(gòu)，它是一種利用樹結(jié)構(gòu)管理數(shù)據(jù) 的高度平衡樹，每個(gè)節(jié)點(diǎn)用該節(jié)點(diǎn)中所有數(shù)據(jù)的最小外接矩形(MBR:Minimal Bounding Rectangle)來表示,實(shí)際數(shù)據(jù)僅出現(xiàn)在葉子節(jié)點(diǎn)中。該索引結(jié)構(gòu)通過擴(kuò)展也可用于高維空間中點(diǎn)數(shù)據(jù)的管理。在查詢過程中，從根節(jié)點(diǎn)層到葉子節(jié)點(diǎn)層進(jìn)行向下搜索，通過計(jì)算查詢向量和各節(jié)點(diǎn)MBR之間的最小距離來判斷查詢范圍是否與某節(jié)點(diǎn)相交來實(shí)現(xiàn)剪枝過濾，僅搜索可能包含結(jié)果的子樹，從而加快檢索速度。該索引結(jié)構(gòu)允許節(jié)點(diǎn)之間的空間重疊，影響了其查詢效率。為了提高R-tree的性能，研究者們相續(xù)提出了 R+-tree、R*-tree、SS-tree、 SR-tree、X-tree、A-tree等索引結(jié)構(gòu)。但這些樹型索引結(jié)構(gòu)隨著特征維度的增加，查詢效率急劇下降，甚至不如順序掃描，這就是所謂的“維數(shù)災(zāi)難”。
[0006]除了樹型結(jié)構(gòu)之外，還存在高維到一維轉(zhuǎn)換的索引結(jié)構(gòu)，例如:金字塔技術(shù)、 NB-tree、iDistance、iMinMax等等。高維到一維轉(zhuǎn)換的索引結(jié)構(gòu)通過某種規(guī)則,將高維向量映射為一維數(shù)據(jù)(稱為key值),然后采用一維的B+_tree來管理這些key值，key值在 B+-tree的葉子節(jié)點(diǎn)層有序排列。進(jìn)行查詢時(shí)，首先通過相同的高維到一維轉(zhuǎn)換規(guī)則計(jì)算查詢向量的查詢key值，最后根據(jù)查詢范圍，確定搜索的key值起始位置和結(jié)束位置，并依次掃描這些key值對(duì)應(yīng)的高維向量，計(jì)算查詢向量與這些高維向量間的相似性，返回那些最相似的高維向量集，得到檢索結(jié)果。由查詢過程可知，高維到一維轉(zhuǎn)換的索引結(jié)構(gòu)在任何情況下性能均優(yōu)于或等效于順序掃描，且基于前人的大量實(shí)驗(yàn)表明，這類索引結(jié)構(gòu)隨維數(shù)和數(shù)據(jù)量的增加，性能降低緩慢。
[0007]金字塔技術(shù)、NB-tree、iDistance、iMinMax等這些高維到一維轉(zhuǎn)換索引結(jié)構(gòu)通過單一 key值的簡(jiǎn)單比較實(shí)現(xiàn)過濾剪枝，雖然不需要復(fù)雜的距離計(jì)算且具有較高的檢索效率，但高維到一維轉(zhuǎn)換的過程能夠引起大量的數(shù)據(jù)信息丟失，引起不同向量可能具有相同的一維key值，通過單一 key值僅能過濾掉比例不大的一部分?jǐn)?shù)據(jù)，導(dǎo)致最終的相似度匹配過程的運(yùn)算量仍然很大，查詢開銷依然不小。

【發(fā)明內(nèi)容】

[0008]本發(fā)明的目的在于提出了一種結(jié)合聚類和雙key值的高維向量檢索方法，該方法采用聚類算法將高維空間進(jìn)行簇劃分，然后將各簇?cái)?shù)據(jù)中的每個(gè)高維向量映射為雙一維 key值。在查詢過程中，通過聚類過濾掉一部分與查詢區(qū)域不相交的簇?cái)?shù)據(jù)，對(duì)于各簇?cái)?shù)據(jù) 通過增加一層key值過濾層,進(jìn)一步采用簡(jiǎn)單的key值比較實(shí)現(xiàn)再次過濾剪枝,極大地減少了最終的向量相似度匹配的運(yùn)算量，顯著加快查詢速度。
[0009]本發(fā)明的總體思想如下:首先采用聚類算法對(duì)高維向量集進(jìn)行簇劃分，然后為各簇?cái)?shù)據(jù)選取兩個(gè)參考點(diǎn)，并對(duì)各簇?cái)?shù)據(jù)采用高維向量對(duì)該簇?cái)?shù)據(jù)兩個(gè)參考點(diǎn)的距離將該簇數(shù)據(jù)中的高維向量映射為雙一維key值，統(tǒng)一選取該簇?cái)?shù)據(jù)中某一采用相同參考點(diǎn)得到的key值作為主key，另一作為輔key，最后，分別采用各簇?cái)?shù)據(jù)的主key為各簇?cái)?shù)據(jù)構(gòu)建 B+_tree,同時(shí)各B+_tree葉子節(jié)點(diǎn)層的每個(gè)主key都綁定一個(gè)指向其對(duì)應(yīng)輔key的指針,每個(gè)輔key都綁定一個(gè)指向其對(duì)應(yīng)高維向量的指針。進(jìn)行檢索時(shí)，首先只需對(duì)與查詢范圍相交的各簇?cái)?shù)據(jù)進(jìn)行搜索，然后在與查詢區(qū)域相交的各簇?cái)?shù)據(jù)中使用相同的兩個(gè)參考點(diǎn)和映射方法將查詢向量映射為查詢主key和查詢輔key，通過查詢主key和查詢范圍確定在各簇數(shù)據(jù)中的主key搜索范圍，并通過查詢輔key和查詢范圍確定輔key的搜索范圍，最后只需對(duì)經(jīng)主key過濾后其輔key在輔key搜索范圍內(nèi)的那些高維向量與查詢向量間進(jìn)行相似度匹配計(jì)算，返回那些最相似的向量集，得到檢索結(jié)果。
[0010]具體創(chuàng)新點(diǎn):對(duì)高維空間進(jìn)行簇劃分，為各簇?cái)?shù)據(jù)中的每個(gè)高維向量選取兩個(gè)參考點(diǎn)得到雙一維key值，通過聚類和兩次簡(jiǎn)單的key值比較，極大地減少了最終參與相似度匹配運(yùn)算的高維向量數(shù)目，顯著地加快了查詢速度。
[0011]本發(fā)明的具體方法步驟為:(I)采用聚類算法對(duì)高維向量集進(jìn)行簇劃分，得到各簇?cái)?shù)據(jù)的聚類中心和聚類半徑；(2)為各簇?cái)?shù)據(jù)構(gòu)建雙key值擴(kuò)展B+-tree，為每簇?cái)?shù)據(jù)構(gòu) 建雙key值擴(kuò)展B+-tree的過程為:首先為該簇?cái)?shù)據(jù)選取兩個(gè)參考點(diǎn)，并采用高維向量對(duì)這兩個(gè)參考點(diǎn)的距離將該簇?cái)?shù)據(jù)中的高維向量映射為雙一維key值，統(tǒng)一選取該簇?cái)?shù)據(jù)中某一采用相同參考點(diǎn)得到的key值為主key，另一作為輔key，然后采用該簇?cái)?shù)據(jù)的主key為該簇?cái)?shù)據(jù)構(gòu)建B+_tree,同時(shí)該B+_tree葉子節(jié)點(diǎn)層的每個(gè)主key都綁定一個(gè)指向其對(duì)應(yīng)輔 key的指針,每個(gè)輔key都綁定一個(gè)指向其對(duì)應(yīng)高維向量的指針，B+_tree葉子節(jié)點(diǎn)層的所有主key形成主key層，所有輔key形成輔key層；(3)將各簇?cái)?shù)據(jù)的聚類中心和聚類半徑都綁定一個(gè)指向其對(duì)應(yīng)簇?cái)?shù)據(jù)所構(gòu)建雙key值擴(kuò)展B+_tree的指針,形成⑶KB-tree ； (4)進(jìn)行檢索時(shí)，通過查詢范圍過濾掉那些與查詢區(qū)域不相交的各簇?cái)?shù)據(jù)，對(duì)與查詢范圍相交的各簇?cái)?shù)據(jù)進(jìn)行搜索，在各簇?cái)?shù)據(jù)中的搜索方法為:使用相同的參考點(diǎn)和映射方法將查詢向量映射為查詢主key和查詢輔key，通過查詢主key和查詢范圍確定在該簇?cái)?shù)據(jù)主key層搜索的起始位置和結(jié)束位置，然后通過查詢輔key和查詢范圍確定在該簇?cái)?shù)據(jù)輔key層的輔 key搜索范圍，接著對(duì)主key層從搜索起始位置到結(jié)束位置間的每個(gè)主key逐一進(jìn)行掃描，判斷該主key對(duì)應(yīng)的輔key是否在輔key搜索范圍內(nèi)，若在搜索范圍內(nèi)，則對(duì)該輔key對(duì)應(yīng) 的高維向量與查詢向量間進(jìn)行相似度匹配計(jì)算，將符合查詢范圍的高維向量返回，得到檢索結(jié)果。
[0012]更進(jìn)一步,步驟I中所述的聚類算法包括Kmeans聚類。
[0013]更進(jìn)一步,步驟2中所述的選取兩個(gè)參考點(diǎn),包括可選取原點(diǎn)和聚類中心為參考
[0014]更進(jìn)一步，步驟2中所述的高維向量對(duì)這兩個(gè)參考點(diǎn)的距離可采用歐式距離或街區(qū)距離。
[0015]再進(jìn)一步，步驟3中所述的⑶KB-tree進(jìn)行高維向量插入時(shí)，首先根據(jù)該高維向量到各簇?cái)?shù)據(jù)聚類中心的距離值，選取距離該高維向量最近的簇?cái)?shù)據(jù)進(jìn)行插入操作，更新聚類半徑，然后根據(jù)待插入向量到該簇?cái)?shù)據(jù)兩個(gè)參考點(diǎn)的距離得到待插入向量的主key和輔 key值,根據(jù)該主key值的大小定位其應(yīng)插入到該簇?cái)?shù)據(jù)對(duì)應(yīng)B+_tree的某一葉子節(jié)點(diǎn)中: 如果該葉子節(jié)點(diǎn)未滿，則直接將該主key值插入到該葉子節(jié)點(diǎn)中,其輔key插入到該主key 對(duì)應(yīng)的位置處，待插入特征向量插入到該輔key對(duì)應(yīng)的位置處，并使主key產(chǎn)生指向其對(duì)應(yīng) 輔key的指針,其對(duì)應(yīng)輔key產(chǎn)生指向待插入高維向量的指針,更新該葉子父節(jié)點(diǎn)對(duì)應(yīng)的 key值；如果該葉子節(jié)點(diǎn)已滿,處理的方式如下:
[0016]I)如果該葉子節(jié)點(diǎn)的左右兄弟節(jié)點(diǎn)存在未滿的情況，則結(jié)合其左右兄弟節(jié)點(diǎn)，進(jìn) 行待插入主key、輔key和高維向量的插入,并更新其父節(jié)點(diǎn)對(duì)應(yīng)的key值；
[0017]2)如果其左右兄弟節(jié)點(diǎn)均滿，則結(jié)合待插入高維向量的主key值，直接對(duì)該葉子節(jié)點(diǎn)進(jìn)行分裂，將分裂后新產(chǎn)生的葉子節(jié)點(diǎn)插入到其父節(jié)點(diǎn)中，同時(shí)將其輔key和高維向量插入到對(duì)應(yīng)存儲(chǔ)位置處，更新其父節(jié)點(diǎn)對(duì)應(yīng)的key值，如果父節(jié)點(diǎn)也已滿，分裂過程繼續(xù) 向上傳遞，并更新對(duì)應(yīng)的key值。
[0018]再進(jìn)一步，步驟4中所述的進(jìn)行檢索時(shí)，采用的檢索方式既包括范圍查詢也包括k 近鄰查詢。
[0019]再進(jìn)一步，步驟4中所述的查詢范圍，對(duì)于范圍查詢來說，是由查詢半徑來確定的，對(duì)于k近鄰查詢來說是由按某一步長(zhǎng)遞增的查詢半徑來確定的，直到第k個(gè)近鄰到查詢向量的距離值小于查詢半徑為止。
【專利附圖】

【附圖說明】
[0020]此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解，構(gòu)成本發(fā)明的一部分，本發(fā) 明的示意性實(shí)施實(shí)例及其說明用于解釋本發(fā)明，并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0021]圖1 (a)本發(fā)明所述方法的流程圖
[0022]圖1(b)本發(fā)明所述索引結(jié)構(gòu)的示例圖[0023]圖2在本發(fā)明所述索引結(jié)構(gòu)上進(jìn)行范圍查詢的框圖
[0024]圖3在本發(fā)明所述索引結(jié)構(gòu)上進(jìn)行k近鄰查詢的框圖
【具體實(shí)施方式】
[0025]為了使本發(fā)明所需解決的技術(shù)問題、技術(shù)方案更加清楚、明白，下面結(jié)合附圖和實(shí) 施實(shí)例對(duì)本發(fā)明的【具體實(shí)施方式】做進(jìn)一步說明。
[0026]本發(fā)明實(shí)施實(shí)例提供的一種結(jié)合聚類和雙key值的高維向量檢索方法其索引結(jié) 構(gòu)構(gòu)建的流程圖如圖1(a)所示:
[0027]首先，采用聚類算法對(duì)高維向量集進(jìn)行空間簇劃分，得到各簇高維數(shù)據(jù)；其次計(jì)算各簇?cái)?shù)據(jù)的聚類中心和半徑，并為每簇?cái)?shù)據(jù)選取兩個(gè)參考點(diǎn)；再次逐一計(jì)算各簇?cái)?shù)據(jù)中的每個(gè)高維向量與該簇?cái)?shù)據(jù)兩個(gè)參考點(diǎn)間的距離，得到每個(gè)高維向量對(duì)應(yīng)的雙一維key值; 然后選取各簇?cái)?shù)據(jù)中某一采用相同參考點(diǎn)得到的key值作為主key，另一作為輔key，并采用各簇?cái)?shù)據(jù)的主key為該簇?cái)?shù)據(jù)構(gòu)建B+_tree，將各簇?cái)?shù)據(jù)的主key對(duì)應(yīng)的輔key和高維向量數(shù)據(jù)插入到對(duì)應(yīng)的輔key和高維向量存儲(chǔ)位置處,各主key綁定指向其對(duì)應(yīng)輔key 的指針，各輔key綁定指向其對(duì)應(yīng)高維向量的指針，得到各簇?cái)?shù)據(jù)對(duì)應(yīng)的雙key值擴(kuò)展 B+-tree ;最后將各簇?cái)?shù)據(jù)的聚類中心和聚類半徑綁定該簇?cái)?shù)據(jù)的雙key值擴(kuò)展B+-tree，形成CDKB-tree索引結(jié)構(gòu)。(如圖1(b)所示，上層為聚類信息層，中間為由各簇?cái)?shù)據(jù)主key構(gòu) 建的各B+-tree，底層為存儲(chǔ)輔key和高維向量的輔key層和特征向量層，各B+-tree葉子節(jié)點(diǎn)層的每個(gè)主key都綁定一個(gè)指向其對(duì)應(yīng)輔key的指針,其輔key綁定一個(gè)指向?qū)?yīng)高維向量的指針。)在進(jìn)行檢索時(shí)，通過查詢向量和查詢范圍判斷各簇?cái)?shù)據(jù)是否與本次查詢相交，然后對(duì)于與本次查詢相交的簇?cái)?shù)據(jù)進(jìn)行進(jìn)一步搜索，搜索的方法為:首先采用相同的參考點(diǎn)和映射規(guī)則，計(jì)算查詢向量和該簇?cái)?shù)據(jù)兩個(gè)參考點(diǎn)間的距離，得到在該簇?cái)?shù)據(jù)中的查詢主key和查詢輔key ;然后根據(jù)查詢主key和查詢范圍，確定在該簇?cái)?shù)據(jù)對(duì)應(yīng)的雙key 值擴(kuò)展B+_tree索引結(jié)構(gòu)主key層(即B+_tree葉子節(jié)點(diǎn)層)的主key搜索范圍，得到主 key層的掃描起始位置和結(jié)束位置，并根據(jù)查詢輔key和查詢范圍，確定在該簇?cái)?shù)據(jù)對(duì)應(yīng)的雙key值擴(kuò)展B+_tree索引結(jié)構(gòu)輔key層的輔key搜索范圍；最后,從主key層的掃描起始位置到結(jié)束位置(主key搜索范圍)，逐一進(jìn)行key值掃描，判斷該主key對(duì)應(yīng)的輔key是否在輔key搜索范圍之內(nèi)，若在搜索范圍之內(nèi)，則計(jì)算該輔key對(duì)應(yīng)的高維向量與查詢向量之間的距離，將滿足檢索結(jié)果的高維向量返回，得到相似向量集。
[0028]本發(fā)明所述的進(jìn)行檢索的檢索方式包括范圍查詢和k近鄰查詢，范圍查詢的流程圖如圖2所示，k近鄰查詢的流程圖如圖3所示。由圖3可知，k近鄰查詢是通過范圍查詢來實(shí)現(xiàn)。
[0029]上述高維向量可以是圖像、視頻、音頻的特征向量。
[0030]應(yīng)當(dāng)理解的是，上述針對(duì)實(shí)施實(shí)例的描述較為具體，并不能因此而認(rèn)為是對(duì)本發(fā) 明專利保護(hù)范圍的限制，本發(fā)明的專利保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【權(quán)利要求】
1.一種結(jié)合聚類和雙key值的高維向量檢索方法，其特征在于具體步驟如下:.1)采用聚類算法對(duì)高維向量集進(jìn)行簇劃分，得到各簇?cái)?shù)據(jù)的聚類中心和聚類半徑；.2)為各簇?cái)?shù)據(jù)構(gòu)建雙key值擴(kuò)展B+-tree，為每簇?cái)?shù)據(jù)構(gòu)建雙key值擴(kuò)展B+-tree的過程為:首先為該簇?cái)?shù)據(jù)選取兩個(gè)參考點(diǎn)，并采用高維向量對(duì)這兩個(gè)參考點(diǎn)的距離將該簇?cái)?shù)據(jù)中的高維向量映射為雙一維key值，統(tǒng)一選取該簇?cái)?shù)據(jù)中某一采用相同參考點(diǎn)得到的 key值為主key,另一作為輔key,然后采用該簇?cái)?shù)據(jù)的主key為該簇?cái)?shù)據(jù)構(gòu)建B+_tree,同時(shí)該B+_tree葉子節(jié)點(diǎn)層的每個(gè)主key都綁定一個(gè)指向其對(duì)應(yīng)輔key的指針,每個(gè)輔key都綁定一個(gè)指向其對(duì)應(yīng)高維向量的指針，B+_tree葉子節(jié)點(diǎn)層的所有主key形成主key層,所有輔key形成輔key層；.3)將各簇?cái)?shù)據(jù)的聚類中心和聚類半徑都綁定一個(gè)指向其對(duì)應(yīng)簇?cái)?shù)據(jù)所構(gòu)建雙key值擴(kuò)展B+_tree的指針,形成CDKB-tree ；.4)進(jìn)行檢索時(shí)，通過查詢范圍過濾掉那些與查詢區(qū)域不相交的各簇?cái)?shù)據(jù)，對(duì)與查詢范圍相交的各簇?cái)?shù)據(jù)進(jìn)行搜索，在相交的各簇?cái)?shù)據(jù)中的搜索方法為:使用相同的參考點(diǎn)和映射方法將查詢向量映射為查詢主key和查詢輔key，通過查詢主key和查詢范圍確定在該簇?cái)?shù)據(jù)主key層搜索的起始位置和結(jié)束位置，然后通過查詢輔key和查詢范圍確定在該簇?cái)?shù)據(jù)輔key層的輔key搜索范圍,接著對(duì)主key層從搜索起始位置到結(jié)束位置間的每個(gè)主key 逐一進(jìn)行掃描，判斷該主key對(duì)應(yīng)的輔key是否在輔key搜索范圍內(nèi)，若在搜索范圍內(nèi)，貝U 對(duì)該輔key對(duì)應(yīng)的高維向量與查詢向量間進(jìn)行相似度匹配計(jì)算，將符合查詢范圍的高維向量返回，得到檢索結(jié)果。
2.如權(quán)利要求1所述的方法，其特征在于:步驟I中所述的聚類算法包括Kmeans聚類。
3.如權(quán)利要求1所述的方法，其特征在于:步驟2中所述的選取兩個(gè)參考點(diǎn)，包括可選取原點(diǎn)和聚類中心為參考點(diǎn)。
4.如權(quán)利要求1所述的方法，其特征在于:步驟2中所述的高維向量對(duì)這兩個(gè)參考點(diǎn)的距離可采用歐式距離或街區(qū)距離。
5.如權(quán)利要求1所述的方法，其特征在于:步驟3中所述的CDKB-tree進(jìn)行高維向量插入時(shí)，首先根據(jù)該高維向量到各簇?cái)?shù)據(jù)聚類中心的距離值，選取距離該高維向量最近的簇?cái)?shù)據(jù)進(jìn)行插入操作，更新聚類半徑，然后根據(jù)待插入向量到該簇?cái)?shù)據(jù)兩個(gè)參考點(diǎn)的距離得到待插入向量的主key和輔key值,根據(jù)該主key值的大小定位其應(yīng)插入到該簇?cái)?shù)據(jù)對(duì)應(yīng)B+_tree的某一葉子節(jié)點(diǎn)中:如果該葉子節(jié)點(diǎn)未滿，貝U直接將該主key值插入到該葉子節(jié)點(diǎn)中，其輔key插入到該主key對(duì)應(yīng)的位置處，待插入特征向量插入到該輔key對(duì)應(yīng)的位置處，并使主key產(chǎn)生指向其對(duì)應(yīng)輔key的指針，其對(duì)應(yīng)輔key產(chǎn)生指向待插入高維向量的指針，更新該葉子節(jié)點(diǎn)父節(jié)點(diǎn)對(duì)應(yīng)的key值；如果該葉子節(jié)點(diǎn)已滿,處理的方式如下:步驟一:如果該葉子節(jié)點(diǎn)的左右兄弟節(jié)點(diǎn)存在未滿的情況，則結(jié)合其左右兄弟節(jié)點(diǎn)，進(jìn)行待插入主key、輔key和高維向量的插入,并更新其父節(jié)點(diǎn)對(duì)應(yīng)的key值；步驟二:如果其左右兄弟節(jié)點(diǎn)均滿，則結(jié)合待插入高維向量的主key值，直接對(duì)該葉子節(jié)點(diǎn)進(jìn)行分裂，將分裂后新產(chǎn)生的葉子節(jié)點(diǎn)插入到其父節(jié)點(diǎn)中，同時(shí)將其輔key和高維向量插入到對(duì)應(yīng)存儲(chǔ)位置處，更新其父節(jié)點(diǎn)對(duì)應(yīng)的key值，如果父節(jié)點(diǎn)也已滿，分裂過程繼續(xù)向上傳遞，并更新對(duì)應(yīng)的key值。
6.如權(quán)利要求1所述的方法，其特征在于:步驟4中所述的進(jìn)行檢索時(shí)，采用的檢索方式既包括范圍查詢也包括k近鄰查詢。
7.如權(quán)利要求1所述的方法，其特征在于:步驟4中所述的查詢范圍，對(duì)于范圍查詢來說，是由查詢半徑來確定的，對(duì)于k近鄰查詢來說是由按某一步長(zhǎng)遞增的查詢半徑來確定的，直到第k個(gè)近鄰到查詢向量的距離值小于查詢半徑為止。
【文檔編號(hào)】G06F17/30GK103500165SQ201310365592
【公開日】2014年1月8日申請(qǐng)日期:2013年8月21日優(yōu)先權(quán)日:2013年8月21日
【發(fā)明者】呂銳, 楊麗芳, 曹學(xué)會(huì), 黃祥林, 成鵬, 龔昊, 史欣萍申請(qǐng)人:新華通訊社, 中國傳媒大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：呂銳;楊麗芳;曹學(xué)會(huì);黃祥林;成鵬;龔昊;史欣萍
技術(shù)所有人：新華通訊社;中國傳媒大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

高維數(shù)據(jù)聚類相關(guān)技術(shù)

高維聚類算法相關(guān)技術(shù)

高維聚類分析相關(guān)技術(shù)

高維聚類相關(guān)技術(shù)

高維數(shù)據(jù)的聚類相關(guān)技術(shù)

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種結(jié)合聚類和雙key值的高維向量檢索方法