最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種結(jié)合聚類和雙key值的高維向量檢索方法

文檔序號(hào):6508464閱讀:224來源:國知局
一種結(jié)合聚類和雙key值的高維向量檢索方法
【專利摘要】本發(fā)明是一種結(jié)合聚類和雙key值的高維向量檢索方法。在本發(fā)明中,提出了一種結(jié)合聚類的雙key值索引結(jié)構(gòu)CDKB-tree,它首先采用聚類算法對(duì)高維向量集進(jìn)行簇劃分,然后為各簇?cái)?shù)據(jù)構(gòu)建雙key值擴(kuò)展B+-tree,形成CDKB-tree。進(jìn)行檢索時(shí),只需對(duì)與查詢范圍相交的簇?cái)?shù)據(jù)進(jìn)行搜索,通過聚類實(shí)現(xiàn)第一次過濾,并通過主key和輔key(雙key值),實(shí)現(xiàn)兩次key值過濾,只需對(duì)主key和輔key均在搜索范圍內(nèi)的那些高維向量與查詢向量間進(jìn)行相似度匹配計(jì)算。本發(fā)明提出的索引結(jié)構(gòu)通過聚類及簡(jiǎn)單的雙key值大小比較,大大地減少了相似度匹配的運(yùn)算量,極大地加快了檢索速度。
【專利說明】一種結(jié)合聚類和雙key值的高維向量檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于多媒體信息檢索、智能信息處理、數(shù)據(jù)挖掘等數(shù)據(jù)處理領(lǐng)域,具體涉及 的是一種結(jié)合聚類和雙key值的高維向量檢索方法。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)和信息技術(shù)的發(fā)展,產(chǎn)生了海量的多媒體數(shù)據(jù),如何在海量的多媒體 數(shù)據(jù)庫中快速找到所需的信息是當(dāng)前多媒體數(shù)據(jù)庫領(lǐng)域研究的一個(gè)重點(diǎn)問題。傳統(tǒng)的方法 是由人工對(duì)多媒體數(shù)據(jù)進(jìn)行標(biāo)注,然后通過文本檢索來實(shí)現(xiàn)多媒體信息檢索。然而人工標(biāo) 注存在工作量大和主觀性強(qiáng)的缺陷,對(duì)于爆炸式增長(zhǎng)的多媒體數(shù)據(jù)來說,完全人工標(biāo)注是 不可實(shí)現(xiàn)的,因此需要研究基于內(nèi)容的多媒體信息檢索技術(shù)。
[0003]實(shí)現(xiàn)基于內(nèi)容的多媒體信息檢索的技術(shù)路線是:通過特征變換,將多媒體數(shù)據(jù)映 射到高維空間中的點(diǎn)——特征向量,用該特征向量來描述多媒體對(duì)象,得到特征庫;然后用 同樣的特征變換方法來提取查詢對(duì)象的特征向量,最后通過特征向量間的相似度匹配來實(shí) 現(xiàn)多媒體信息的相似檢索。因此多媒體信息的相似檢索轉(zhuǎn)變?yōu)樵诟呔S特征空間中尋找與給 定查詢點(diǎn)最近的點(diǎn)集的過程。
[0004]要在高維空間中尋找與給定查詢點(diǎn)最相近的點(diǎn)集,最簡(jiǎn)單直觀的方法就是順序掃 描,即依次將特征庫中的每個(gè)特征(高維向量)與查詢點(diǎn)進(jìn)行相似度匹配,返回最匹配的那 些特征點(diǎn)集,得到檢索結(jié)果。順序掃描隨著特征庫中特征數(shù)目和特征維度的增加,計(jì)算消耗 時(shí)間線性增大,當(dāng)特征庫中的特征數(shù)目很大時(shí),順序掃描將不能滿足實(shí)時(shí)性需求。為了加快 檢索速度,最常用的方法就是借助于高維索引技術(shù)。
[0005]為了實(shí)現(xiàn)對(duì)海量高維向量的管理,研究者們提出了大量的索引結(jié)構(gòu),其中最為經(jīng) 典的是以R-tree為代表的R-tree家族系列索引結(jié)構(gòu)。R-tree是20世紀(jì)80年代由Guttman 提出的,用于管理多維矩形塊數(shù)據(jù)而設(shè)計(jì)的一種索引結(jié)構(gòu),它是一種利用樹結(jié)構(gòu)管理數(shù)據(jù) 的高度平衡樹,每個(gè)節(jié)點(diǎn)用該節(jié)點(diǎn)中所有數(shù)據(jù)的最小外接矩形(MBR:Minimal Bounding Rectangle)來表示,實(shí)際數(shù)據(jù)僅出現(xiàn)在葉子節(jié)點(diǎn)中。該索引結(jié)構(gòu)通過擴(kuò)展也可用于高維空 間中點(diǎn)數(shù)據(jù)的管理。在查詢過程中,從根節(jié)點(diǎn)層到葉子節(jié)點(diǎn)層進(jìn)行向下搜索,通過計(jì)算查詢 向量和各節(jié)點(diǎn)MBR之間的最小距離來判斷查詢范圍是否與某節(jié)點(diǎn)相交來實(shí)現(xiàn)剪枝過濾,僅 搜索可能包含結(jié)果的子樹,從而加快檢索速度。該索引結(jié)構(gòu)允許節(jié)點(diǎn)之間的空間重疊,影響 了其查詢效率。為了提高R-tree的性能,研究者們相續(xù)提出了 R+-tree、R*-tree、SS-tree、 SR-tree、X-tree、A-tree等索引結(jié)構(gòu)。但這些樹型索引結(jié)構(gòu)隨著特征維度的增加,查詢效 率急劇下降,甚至不如順序掃描,這就是所謂的“維數(shù)災(zāi)難”。
[0006]除了樹型結(jié)構(gòu)之外,還存在高維到一維轉(zhuǎn)換的索引結(jié)構(gòu),例如:金字塔技術(shù)、 NB-tree、iDistance、iMinMax等等。高維到一維轉(zhuǎn)換的索引結(jié)構(gòu)通過某種規(guī)則,將高維向 量映射為一維數(shù)據(jù)(稱為key值),然后采用一維的B+_tree來管理這些key值,key值在 B+-tree的葉子節(jié)點(diǎn)層有序排列。進(jìn)行查詢時(shí),首先通過相同的高維到一維轉(zhuǎn)換規(guī)則計(jì)算查 詢向量的查詢key值,最后根據(jù)查詢范圍,確定搜索的key值起始位置和結(jié)束位置,并依次掃描這些key值對(duì)應(yīng)的高維向量,計(jì)算查詢向量與這些高維向量間的相似性,返回那些最 相似的高維向量集,得到檢索結(jié)果。由查詢過程可知,高維到一維轉(zhuǎn)換的索引結(jié)構(gòu)在任何情 況下性能均優(yōu)于或等效于順序掃描,且基于前人的大量實(shí)驗(yàn)表明,這類索引結(jié)構(gòu)隨維數(shù)和 數(shù)據(jù)量的增加,性能降低緩慢。
[0007]金字塔技術(shù)、NB-tree、iDistance、iMinMax等這些高維到一維轉(zhuǎn)換索引結(jié)構(gòu)通 過單一 key值的簡(jiǎn)單比較實(shí)現(xiàn)過濾剪枝,雖然不需要復(fù)雜的距離計(jì)算且具有較高的檢索效 率,但高維到一維轉(zhuǎn)換的過程能夠引起大量的數(shù)據(jù)信息丟失,引起不同向量可能具有相同 的一維key值,通過單一 key值僅能過濾掉比例不大的一部分?jǐn)?shù)據(jù),導(dǎo)致最終的相似度匹配 過程的運(yùn)算量仍然很大,查詢開銷依然不小。

【發(fā)明內(nèi)容】

[0008]本發(fā)明的目的在于提出了一種結(jié)合聚類和雙key值的高維向量檢索方法,該方法 采用聚類算法將高維空間進(jìn)行簇劃分,然后將各簇?cái)?shù)據(jù)中的每個(gè)高維向量映射為雙一維 key值。在查詢過程中,通過聚類過濾掉一部分與查詢區(qū)域不相交的簇?cái)?shù)據(jù),對(duì)于各簇?cái)?shù)據(jù) 通過增加一層key值過濾層,進(jìn)一步采用簡(jiǎn)單的key值比較實(shí)現(xiàn)再次過濾剪枝,極大地減少 了最終的向量相似度匹配的運(yùn)算量,顯著加快查詢速度。
[0009]本發(fā)明的總體思想如下:首先采用聚類算法對(duì)高維向量集進(jìn)行簇劃分,然后為各 簇?cái)?shù)據(jù)選取兩個(gè)參考點(diǎn),并對(duì)各簇?cái)?shù)據(jù)采用高維向量對(duì)該簇?cái)?shù)據(jù)兩個(gè)參考點(diǎn)的距離將該簇 數(shù)據(jù)中的高維向量映射為雙一維key值,統(tǒng)一選取該簇?cái)?shù)據(jù)中某一采用相同參考點(diǎn)得到 的key值作為主key,另一作為輔key,最后,分別采用各簇?cái)?shù)據(jù)的主key為各簇?cái)?shù)據(jù)構(gòu)建 B+_tree,同時(shí)各B+_tree葉子節(jié)點(diǎn)層的每個(gè)主key都綁定一個(gè)指向其對(duì)應(yīng)輔key的指針,每 個(gè)輔key都綁定一個(gè)指向其對(duì)應(yīng)高維向量的指針。進(jìn)行檢索時(shí),首先只需對(duì)與查詢范圍相 交的各簇?cái)?shù)據(jù)進(jìn)行搜索,然后在與查詢區(qū)域相交的各簇?cái)?shù)據(jù)中使用相同的兩個(gè)參考點(diǎn)和映 射方法將查詢向量映射為查詢主key和查詢輔key,通過查詢主key和查詢范圍確定在各簇 數(shù)據(jù)中的主key搜索范圍,并通過查詢輔key和查詢范圍確定輔key的搜索范圍,最后只需 對(duì)經(jīng)主key過濾后其輔key在輔key搜索范圍內(nèi)的那些高維向量與查詢向量間進(jìn)行相似度 匹配計(jì)算,返回那些最相似的向量集,得到檢索結(jié)果。
[0010]具體創(chuàng)新點(diǎn):對(duì)高維空間進(jìn)行簇劃分,為各簇?cái)?shù)據(jù)中的每個(gè)高維向量選取兩個(gè)參 考點(diǎn)得到雙一維key值,通過聚類和兩次簡(jiǎn)單的key值比較,極大地減少了最終參與相似度 匹配運(yùn)算的高維向量數(shù)目,顯著地加快了查詢速度。
[0011]本發(fā)明的具體方法步驟為:(I)采用聚類算法對(duì)高維向量集進(jìn)行簇劃分,得到各 簇?cái)?shù)據(jù)的聚類中心和聚類半徑;(2)為各簇?cái)?shù)據(jù)構(gòu)建雙key值擴(kuò)展B+-tree,為每簇?cái)?shù)據(jù)構(gòu) 建雙key值擴(kuò)展B+-tree的過程為:首先為該簇?cái)?shù)據(jù)選取兩個(gè)參考點(diǎn),并采用高維向量對(duì)這 兩個(gè)參考點(diǎn)的距離將該簇?cái)?shù)據(jù)中的高維向量映射為雙一維key值,統(tǒng)一選取該簇?cái)?shù)據(jù)中某 一采用相同參考點(diǎn)得到的key值為主key,另一作為輔key,然后采用該簇?cái)?shù)據(jù)的主key為 該簇?cái)?shù)據(jù)構(gòu)建B+_tree,同時(shí)該B+_tree葉子節(jié)點(diǎn)層的每個(gè)主key都綁定一個(gè)指向其對(duì)應(yīng)輔 key的指針,每個(gè)輔key都綁定一個(gè)指向其對(duì)應(yīng)高維向量的指針,B+_tree葉子節(jié)點(diǎn)層的所 有主key形成主key層,所有輔key形成輔key層;(3)將各簇?cái)?shù)據(jù)的聚類中心和聚類半徑 都綁定一個(gè)指向其對(duì)應(yīng)簇?cái)?shù)據(jù)所構(gòu)建雙key值擴(kuò)展B+_tree的指針,形成⑶KB-tree ; (4)進(jìn)行檢索時(shí),通過查詢范圍過濾掉那些與查詢區(qū)域不相交的各簇?cái)?shù)據(jù),對(duì)與查詢范圍相交的 各簇?cái)?shù)據(jù)進(jìn)行搜索,在各簇?cái)?shù)據(jù)中的搜索方法為:使用相同的參考點(diǎn)和映射方法將查詢向 量映射為查詢主key和查詢輔key,通過查詢主key和查詢范圍確定在該簇?cái)?shù)據(jù)主key層搜 索的起始位置和結(jié)束位置,然后通過查詢輔key和查詢范圍確定在該簇?cái)?shù)據(jù)輔key層的輔 key搜索范圍,接著對(duì)主key層從搜索起始位置到結(jié)束位置間的每個(gè)主key逐一進(jìn)行掃描, 判斷該主key對(duì)應(yīng)的輔key是否在輔key搜索范圍內(nèi),若在搜索范圍內(nèi),則對(duì)該輔key對(duì)應(yīng) 的高維向量與查詢向量間進(jìn)行相似度匹配計(jì)算,將符合查詢范圍的高維向量返回,得到檢 索結(jié)果。
[0012]更進(jìn)一步,步驟I中所述的聚類算法包括Kmeans聚類。
[0013]更進(jìn)一步,步驟2中所述的選取兩個(gè)參考點(diǎn),包括可選取原點(diǎn)和聚類中心為參考
[0014]更進(jìn)一步,步驟2中所述的高維向量對(duì)這兩個(gè)參考點(diǎn)的距離可采用歐式距離或街 區(qū)距離。
[0015]再進(jìn)一步,步驟3中所述的⑶KB-tree進(jìn)行高維向量插入時(shí),首先根據(jù)該高維向量 到各簇?cái)?shù)據(jù)聚類中心的距離值,選取距離該高維向量最近的簇?cái)?shù)據(jù)進(jìn)行插入操作,更新聚 類半徑,然后根據(jù)待插入向量到該簇?cái)?shù)據(jù)兩個(gè)參考點(diǎn)的距離得到待插入向量的主key和輔 key值,根據(jù)該主key值的大小定位其應(yīng)插入到該簇?cái)?shù)據(jù)對(duì)應(yīng)B+_tree的某一葉子節(jié)點(diǎn)中: 如果該葉子節(jié)點(diǎn)未滿,則直接將該主key值插入到該葉子節(jié)點(diǎn)中,其輔key插入到該主key 對(duì)應(yīng)的位置處,待插入特征向量插入到該輔key對(duì)應(yīng)的位置處,并使主key產(chǎn)生指向其對(duì)應(yīng) 輔key的指針,其對(duì)應(yīng)輔key產(chǎn)生指向待插入高維向量的指針,更新該葉子父節(jié)點(diǎn)對(duì)應(yīng)的 key值;如果該葉子節(jié)點(diǎn)已滿,處理的方式如下:
[0016]I)如果該葉子節(jié)點(diǎn)的左右兄弟節(jié)點(diǎn)存在未滿的情況,則結(jié)合其左右兄弟節(jié)點(diǎn),進(jìn) 行待插入主key、輔key和高維向量的插入,并更新其父節(jié)點(diǎn)對(duì)應(yīng)的key值;
[0017]2)如果其左右兄弟節(jié)點(diǎn)均滿,則結(jié)合待插入高維向量的主key值,直接對(duì)該葉子 節(jié)點(diǎn)進(jìn)行分裂,將分裂后新產(chǎn)生的葉子節(jié)點(diǎn)插入到其父節(jié)點(diǎn)中,同時(shí)將其輔key和高維向 量插入到對(duì)應(yīng)存儲(chǔ)位置處,更新其父節(jié)點(diǎn)對(duì)應(yīng)的key值,如果父節(jié)點(diǎn)也已滿,分裂過程繼續(xù) 向上傳遞,并更新對(duì)應(yīng)的key值。
[0018]再進(jìn)一步,步驟4中所述的進(jìn)行檢索時(shí),采用的檢索方式既包括范圍查詢也包括k 近鄰查詢。
[0019]再進(jìn)一步,步驟4中所述的查詢范圍,對(duì)于范圍查詢來說,是由查詢半徑來確定 的,對(duì)于k近鄰查詢來說是由按某一步長(zhǎng)遞增的查詢半徑來確定的,直到第k個(gè)近鄰到查詢 向量的距離值小于查詢半徑為止。
【專利附圖】

【附圖說明】
[0020]此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本發(fā)明的一部分,本發(fā) 明的示意性實(shí)施實(shí)例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖 中:
[0021]圖1 (a)本發(fā)明所述方法的流程圖
[0022]圖1(b)本發(fā)明所述索引結(jié)構(gòu)的示例圖[0023]圖2在本發(fā)明所述索引結(jié)構(gòu)上進(jìn)行范圍查詢的框圖
[0024]圖3在本發(fā)明所述索引結(jié)構(gòu)上進(jìn)行k近鄰查詢的框圖
【具體實(shí)施方式】
[0025]為了使本發(fā)明所需解決的技術(shù)問題、技術(shù)方案更加清楚、明白,下面結(jié)合附圖和實(shí) 施實(shí)例對(duì)本發(fā)明的【具體實(shí)施方式】做進(jìn)一步說明。
[0026]本發(fā)明實(shí)施實(shí)例提供的一種結(jié)合聚類和雙key值的高維向量檢索方法其索引結(jié) 構(gòu)構(gòu)建的流程圖如圖1(a)所示:
[0027]首先,采用聚類算法對(duì)高維向量集進(jìn)行空間簇劃分,得到各簇高維數(shù)據(jù);其次計(jì)算 各簇?cái)?shù)據(jù)的聚類中心和半徑,并為每簇?cái)?shù)據(jù)選取兩個(gè)參考點(diǎn);再次逐一計(jì)算各簇?cái)?shù)據(jù)中的 每個(gè)高維向量與該簇?cái)?shù)據(jù)兩個(gè)參考點(diǎn)間的距離,得到每個(gè)高維向量對(duì)應(yīng)的雙一維key值; 然后選取各簇?cái)?shù)據(jù)中某一采用相同參考點(diǎn)得到的key值作為主key,另一作為輔key,并 采用各簇?cái)?shù)據(jù)的主key為該簇?cái)?shù)據(jù)構(gòu)建B+_tree,將各簇?cái)?shù)據(jù)的主key對(duì)應(yīng)的輔key和高 維向量數(shù)據(jù)插入到對(duì)應(yīng)的輔key和高維向量存儲(chǔ)位置處,各主key綁定指向其對(duì)應(yīng)輔key 的指針,各輔key綁定指向其對(duì)應(yīng)高維向量的指針,得到各簇?cái)?shù)據(jù)對(duì)應(yīng)的雙key值擴(kuò)展 B+-tree ;最后將各簇?cái)?shù)據(jù)的聚類中心和聚類半徑綁定該簇?cái)?shù)據(jù)的雙key值擴(kuò)展B+-tree,形 成CDKB-tree索引結(jié)構(gòu)。(如圖1(b)所示,上層為聚類信息層,中間為由各簇?cái)?shù)據(jù)主key構(gòu) 建的各B+-tree,底層為存儲(chǔ)輔key和高維向量的輔key層和特征向量層,各B+-tree葉子 節(jié)點(diǎn)層的每個(gè)主key都綁定一個(gè)指向其對(duì)應(yīng)輔key的指針,其輔key綁定一個(gè)指向?qū)?yīng)高 維向量的指針。)在進(jìn)行檢索時(shí),通過查詢向量和查詢范圍判斷各簇?cái)?shù)據(jù)是否與本次查詢 相交,然后對(duì)于與本次查詢相交的簇?cái)?shù)據(jù)進(jìn)行進(jìn)一步搜索,搜索的方法為:首先采用相同的 參考點(diǎn)和映射規(guī)則,計(jì)算查詢向量和該簇?cái)?shù)據(jù)兩個(gè)參考點(diǎn)間的距離,得到在該簇?cái)?shù)據(jù)中的 查詢主key和查詢輔key ;然后根據(jù)查詢主key和查詢范圍,確定在該簇?cái)?shù)據(jù)對(duì)應(yīng)的雙key 值擴(kuò)展B+_tree索引結(jié)構(gòu)主key層(即B+_tree葉子節(jié)點(diǎn)層)的主key搜索范圍,得到主 key層的掃描起始位置和結(jié)束位置,并根據(jù)查詢輔key和查詢范圍,確定在該簇?cái)?shù)據(jù)對(duì)應(yīng)的 雙key值擴(kuò)展B+_tree索引結(jié)構(gòu)輔key層的輔key搜索范圍;最后,從主key層的掃描起始 位置到結(jié)束位置(主key搜索范圍),逐一進(jìn)行key值掃描,判斷該主key對(duì)應(yīng)的輔key是 否在輔key搜索范圍之內(nèi),若在搜索范圍之內(nèi),則計(jì)算該輔key對(duì)應(yīng)的高維向量與查詢向量 之間的距離,將滿足檢索結(jié)果的高維向量返回,得到相似向量集。
[0028]本發(fā)明所述的進(jìn)行檢索的檢索方式包括范圍查詢和k近鄰查詢,范圍查詢的流程 圖如圖2所示,k近鄰查詢的流程圖如圖3所示。由圖3可知,k近鄰查詢是通過范圍查詢 來實(shí)現(xiàn)。
[0029]上述高維向量可以是圖像、視頻、音頻的特征向量。
[0030]應(yīng)當(dāng)理解的是,上述針對(duì)實(shí)施實(shí)例的描述較為具體,并不能因此而認(rèn)為是對(duì)本發(fā) 明專利保護(hù)范圍的限制,本發(fā)明的專利保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【權(quán)利要求】
1.一種結(jié)合聚類和雙key值的高維向量檢索方法,其特征在于具體步驟如下:.1)采用聚類算法對(duì)高維向量集進(jìn)行簇劃分,得到各簇?cái)?shù)據(jù)的聚類中心和聚類半徑;.2)為各簇?cái)?shù)據(jù)構(gòu)建雙key值擴(kuò)展B+-tree,為每簇?cái)?shù)據(jù)構(gòu)建雙key值擴(kuò)展B+-tree的過程為:首先為該簇?cái)?shù)據(jù)選取兩個(gè)參考點(diǎn),并采用高維向量對(duì)這兩個(gè)參考點(diǎn)的距離將該簇?cái)?shù)據(jù)中的高維向量映射為雙一維key值,統(tǒng)一選取該簇?cái)?shù)據(jù)中某一采用相同參考點(diǎn)得到的 key值為主key,另一作為輔key,然后采用該簇?cái)?shù)據(jù)的主key為該簇?cái)?shù)據(jù)構(gòu)建B+_tree,同時(shí)該B+_tree葉子節(jié)點(diǎn)層的每個(gè)主key都綁定一個(gè)指向其對(duì)應(yīng)輔key的指針,每個(gè)輔key都綁定一個(gè)指向其對(duì)應(yīng)高維向量的指針,B+_tree葉子節(jié)點(diǎn)層的所有主key形成主key層,所有輔key形成輔key層;.3)將各簇?cái)?shù)據(jù)的聚類中心和聚類半徑都綁定一個(gè)指向其對(duì)應(yīng)簇?cái)?shù)據(jù)所構(gòu)建雙key值擴(kuò)展B+_tree的指針,形成CDKB-tree ;.4)進(jìn)行檢索時(shí),通過查詢范圍過濾掉那些與查詢區(qū)域不相交的各簇?cái)?shù)據(jù),對(duì)與查詢范圍相交的各簇?cái)?shù)據(jù)進(jìn)行搜索,在相交的各簇?cái)?shù)據(jù)中的搜索方法為:使用相同的參考點(diǎn)和映射方法將查詢向量映射為查詢主key和查詢輔key,通過查詢主key和查詢范圍確定在該簇?cái)?shù)據(jù)主key層搜索的起始位置和結(jié)束位置,然后通過查詢輔key和查詢范圍確定在該簇?cái)?shù)據(jù)輔key層的輔key搜索范圍,接著對(duì)主key層從搜索起始位置到結(jié)束位置間的每個(gè)主key 逐一進(jìn)行掃描,判斷該主key對(duì)應(yīng)的輔key是否在輔key搜索范圍內(nèi),若在搜索范圍內(nèi),貝U 對(duì)該輔key對(duì)應(yīng)的高維向量與查詢向量間進(jìn)行相似度匹配計(jì)算,將符合查詢范圍的高維向量返回,得到檢索結(jié)果。
2.如權(quán)利要求1所述的方法,其特征在于:步驟I中所述的聚類算法包括Kmeans聚類。
3.如權(quán)利要求1所述的方法,其特征在于:步驟2中所述的選取兩個(gè)參考點(diǎn),包括可選取原點(diǎn)和聚類中心為參考點(diǎn)。
4.如權(quán)利要求1所述的方法,其特征在于:步驟2中所述的高維向量對(duì)這兩個(gè)參考點(diǎn)的距離可采用歐式距離或街區(qū)距離。
5.如權(quán)利要求1所述的方法,其特征在于:步驟3中所述的CDKB-tree進(jìn)行高維向量插入時(shí),首先根據(jù)該高維向量到各簇?cái)?shù)據(jù)聚類中心的距離值,選取距離該高維向量最近的簇?cái)?shù)據(jù)進(jìn)行插入操作,更新聚類半徑,然后根據(jù)待插入向量到該簇?cái)?shù)據(jù)兩個(gè)參考點(diǎn)的距離得到待插入向量的主key和輔key值,根據(jù)該主key值的大小定位其應(yīng)插入到該簇?cái)?shù)據(jù)對(duì)應(yīng)B+_tree的某一葉子節(jié)點(diǎn)中:如果該葉子節(jié)點(diǎn)未滿,貝U直接將該主key值插入到該葉子節(jié)點(diǎn)中,其輔key插入到該主key對(duì)應(yīng)的位置處,待插入特征向量插入到該輔key對(duì)應(yīng)的位置處,并使主key產(chǎn)生指向其對(duì)應(yīng)輔key的指針,其對(duì)應(yīng)輔key產(chǎn)生指向待插入高維向量的指針,更新該葉子節(jié)點(diǎn)父節(jié)點(diǎn)對(duì)應(yīng)的key值;如果該葉子節(jié)點(diǎn)已滿,處理的方式如下:步驟一:如果該葉子節(jié)點(diǎn)的左右兄弟節(jié)點(diǎn)存在未滿的情況,則結(jié)合其左右兄弟節(jié)點(diǎn),進(jìn)行待插入主key、輔key和高維向量的插入,并更新其父節(jié)點(diǎn)對(duì)應(yīng)的key值;步驟二:如果其左右兄弟節(jié)點(diǎn)均滿,則結(jié)合待插入高維向量的主key值,直接對(duì)該葉子節(jié)點(diǎn)進(jìn)行分裂,將分裂后新產(chǎn)生的葉子節(jié)點(diǎn)插入到其父節(jié)點(diǎn)中,同時(shí)將其輔key和高維向量插入到對(duì)應(yīng)存儲(chǔ)位置處,更新其父節(jié)點(diǎn)對(duì)應(yīng)的key值,如果父節(jié)點(diǎn)也已滿,分裂過程繼續(xù)向上傳遞,并更新對(duì)應(yīng)的key值。
6.如權(quán)利要求1所述的方法,其特征在于:步驟4中所述的進(jìn)行檢索時(shí),采用的檢索方式既包括范圍查詢也包括k近鄰查詢。
7.如權(quán)利要求1所述的方法,其特征在于:步驟4中所述的查詢范圍,對(duì)于范圍查詢來說,是由查詢半徑來確定的,對(duì)于k近鄰查詢來說是由按某一步長(zhǎng)遞增的查詢半徑來確定的,直到第k個(gè)近鄰到查詢向量的距離值小于查詢半徑為止。
【文檔編號(hào)】G06F17/30GK103500165SQ201310365592
【公開日】2014年1月8日 申請(qǐng)日期:2013年8月21日 優(yōu)先權(quán)日:2013年8月21日
【發(fā)明者】呂銳, 楊麗芳, 曹學(xué)會(huì), 黃祥林, 成鵬, 龔昊, 史欣萍 申請(qǐng)人:新華通訊社, 中國傳媒大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1