最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

用于過濾、分割并且識別無約束環(huán)境中的對象的系統(tǒng)的制作方法

文檔序號:11890746閱讀:279來源:國知局
用于過濾、分割并且識別無約束環(huán)境中的對象的系統(tǒng)的制作方法與工藝

本申請是2014年3月27日提交的題為“Robust Motion 3D Exploitation;A Full Pipeline of Filtering,Segmenting and Recognizing Objects in Unconstrained Environments”的第61/971,364號美國臨時申請的非臨時申請,其全部通過引用結(jié)合于此。

這還是2014年5月6日提交的題為“System for Filtering,Segmenting and Recognizing Objects in Unconstrained Environments”的第61/989,106號美國臨時申請的非臨時申請,其全部通過引用結(jié)合于此。

這還是2014年5月1日提交的題為“Adaptive 3D to 2D Projection for Different Height Slices and Extraction of Robust Morphological Features for 3D Object Recognition”的第61/987,122號美國臨時申請的非臨時申請,其全部通過引用結(jié)合于此。

本發(fā)明的背景

(1)技術(shù)領(lǐng)域

本發(fā)明涉及一種對象識別系統(tǒng),更具體地涉及一種用于過濾、分割并且識別三維數(shù)據(jù)中的對象的系統(tǒng)。

(2)

背景技術(shù):

距離傳感器技術(shù)的最新發(fā)展提供了以高分辨率和高準確度收集大區(qū)域之上的三維(3D)數(shù)據(jù)的能力。所收集的3D數(shù)據(jù)的精確度通常足夠高以不僅捕獲普通大結(jié)構(gòu)(例如,建筑物),而且捕獲較小對象(諸如行人和騎自行車的人)。該改進使得能夠進行針對寬應(yīng)用范圍的基于3D的場景分析。

已經(jīng)在相當多不同設(shè)置(包括城市(參見所結(jié)合的參考文獻書目列表,第12個參考文獻書目)、室內(nèi)(參見第3個參考文獻書目)以及空中設(shè)置(參見第4個參考文獻書目))下研究了3D場景分析。已經(jīng)開發(fā)了不同技術(shù)用于標記表面(諸如草坪、墻壁或路面、以及對象類型的小集合(諸如3D室外場景中的葉子、人們以及汽車))。這些方法中的大部分結(jié)合經(jīng)由圖模型推理的空間和時間平滑使用描述局部形狀和外觀的特征來標記各個3D激光點。通常,從3D點周圍的固定鄰居或從借助超分割場景生成的小斑塊(patch)提取特征。在結(jié)構(gòu)化圖模型中,圖中的節(jié)點是表示3D特征點的標記的隨機變量,并且邊緣被形成為對場景情境建模。為了有效,需要考慮許多相互作用,這產(chǎn)生緊密鏈接的圖/隨機場。通常,對這種隨機場的精確推理是難解的,并且只能使用近似方法。這使學習過程進一步復雜化。另外,近似推理的使用使得所學習的解決方案有些隨意且對參數(shù)敏感。

Douillard等人的工作(參見第5個參考文獻書目)例如參考將3D點云用作用于分類的可能解決方案。在Douillard等人的工作中,提出了一種用于3D點云的快速分割以及所獲得的3D片段的隨后分類的管線。然而,它們的分類模塊的核心依賴于經(jīng)由迭代最近點(ICP)算法使候選片段與一組預定義3D模板對準。換言之,Douillard等人的工作要求預定義3D對象模板(即,參考3D點云),并且迭代對準步驟要求大量計算時間。

由此,一直需要可以識別對象的系統(tǒng),其不要求對用于對象實體分類的場景進行建模并且進一步不要求標記各個3D特征點。換言之,一直需要提供用于非受控環(huán)境中的3D候選對象的無人監(jiān)督檢測和分割的系統(tǒng)。



技術(shù)實現(xiàn)要素:

描述了一種用于過濾、分割并且識別對象的系統(tǒng)。該系統(tǒng)包括一個或更多個處理器和存儲器。所述存儲器上編碼有可執(zhí)行指令,使得在執(zhí)行所述指令時,所述一個或更多個處理器執(zhí)行多個操作,包括:接收具有三維(3D)空間中的多個數(shù)據(jù)點的3D點云;對3D點云進行降采樣,以生成具有所述3D空間中的減少的數(shù)據(jù)點的降采樣3D點云P;識別并且去除所述降采樣3D點云中的地平面,以留下所述降采樣3D點云中的非地面(例如,地面上方)數(shù)據(jù)點(例如,在一方面中,非地面數(shù)據(jù)點是地平面之上的數(shù)據(jù)點);聚集所述非地面數(shù)據(jù)點以生成多個3D二進制大對象(blob),每個所述3D二進制大對象具有群集大小;基于群集大小對3D二進制大對象取閾值,以生成一組3D候選二進制大對象;從每個3D候選二進制大對象提取特征;以及基于所提取的特征將所述3D候選二進制大對象中的至少一個分類為預定義對象種類。

在另一方面中,使用具有多個體元的3D體元柵格對所述3D點云進行降采樣。所述3D體元柵格被定位在所述3D點云之上,使得每個體元中的所有所述數(shù)據(jù)點被降采樣到針對每個體元的質(zhì)心。

另外,在識別并且去除地平面時,使用平面模型來識別所述地平面,使得具有最大數(shù)量點的所述平面被識別為所述地平面。

在又一方面中,識別并且去除所述地平面還包括以下操作:從所述降采樣3D點云P隨機地選擇三個非共線唯一點;使用以下方程:ax+by+cz+d=0根據(jù)所述三個非共線唯一點計算平面模型(a,b,c,d)系數(shù);計算從所述降采樣3D點云P中的所有點到所述平面模型(a,b,c,d)的距離;確定屬于所述降采樣3D點云P的、到所述平面模型的距離落在預定義范圍(例如,閾值)內(nèi)的多個點p*;將具有落在所述預定義范圍內(nèi)的最大數(shù)量點p*的平面指定為所述地平面;以及從所述降采樣3D點云P數(shù)據(jù)去除包括在所述地平面中的點p*,以留下非地面數(shù)據(jù)點。

進一步地,聚集所述非地面數(shù)據(jù)點以生成多個3D二進制大對象還包括以下操作:創(chuàng)建針對所述降采樣3D點云P的kd樹表示;生成空群集列表C和需要被檢驗的點的隊列Q;以及針對每一個點pi∈P,執(zhí)行以下操作:

將pi添加到當前隊列Q;

對于每一個點pi∈Q,進行:

將所有鄰近點遞歸地添加在具有固定半徑的球面中,并且當Q中的所有點的列表已被處理時,將Q添加到所述群集列表C,并且將Q重置為空列表;以及

當所述原始點云中的所有點已被處理并且現(xiàn)在是所述群集列表C的一部分時結(jié)束。

在另一方面中,從每個3D候選二進制大對象提取特征還包括以下操作:將所述3D候選二進制大對象投影到處于不同高度的多個二維(2D)圖像切片中;以及處理每個2D圖像切片,以從每個2D圖像切片提取特征。

最后,本發(fā)明還包括計算機程序產(chǎn)品和計算機實現(xiàn)方法。計算機程序產(chǎn)品包括非暫時性計算機可讀介質(zhì)上存儲的計算機可讀指令,該計算機可讀指令可以由具有一個或更多個處理器的計算機執(zhí)行,使得在執(zhí)行指令時,一個或更多個處理器執(zhí)行這里所列出的操作。另選地,計算機實現(xiàn)方法包括使得計算機執(zhí)行這種指令并且執(zhí)行所得到的操作的動作。

附圖說明

本發(fā)明的目的、特征以及優(yōu)點將從本發(fā)明的各種方面的以下詳細描述連同參照附圖變得明顯,附圖中:

圖1是示出根據(jù)本發(fā)明的原理的系統(tǒng)的組件的框圖;

圖2是根據(jù)本發(fā)明的原理的計算機程序產(chǎn)品的說明;

圖3是示出根據(jù)本發(fā)明的原理的對象分類的框圖;

圖4是示出將點云(例如,汽車)劃分為基于八叉樹數(shù)據(jù)結(jié)構(gòu)創(chuàng)建的體元柵格的示例的說明;

圖5是示出從點云去除地平面的示例的說明;

圖6是示出沒有圖5中所示的地平面的情況下借助應(yīng)用至點云的聚集獲得的分割的示例的說明;以及

圖7是示出所提取的特征向量的說明。

具體實施方式

本發(fā)明涉及一種對象識別系統(tǒng),并且更具體地涉及一種用于過濾、分割并且識別三維數(shù)據(jù)中的對象的系統(tǒng)。以下描述被提出以使得本領(lǐng)域普通技術(shù)人員能夠進行并且使用本發(fā)明,并且將本發(fā)明結(jié)合到特定應(yīng)用的情境中。各種修改以及不同應(yīng)用中的各種用途對本領(lǐng)域技術(shù)人員來說是顯而易見的,并且這里所定義的一般原理可以應(yīng)用至廣泛范圍的實施方式。由此,本發(fā)明不旨在限于所提出的實施方式,而是旨在符合與這里所公開的原理以及新特征一致的最寬范圍。

在以下詳細描述中,為了提供本發(fā)明的更徹底理解,闡述了大量具體詳情。然而,對于本領(lǐng)域技術(shù)人員顯而易見的是,可以在不必須限于這些具體詳情的情況下來實踐本發(fā)明。在其它情況下,為了避免模糊本發(fā)明,公知結(jié)構(gòu)和裝置以框圖形式來示出,而不是詳細示出。

讀者的注意力致力于與本說明書同時提交且對本說明書的公眾審查開放的所有文獻,并且通過引用結(jié)合所有這種文獻和文檔的內(nèi)容。本說明書中所公開的全部特征(包括任何所附權(quán)利要求、摘要以及附圖)可以由服務(wù)相同、等同或類似目的的另選特征來代替,除非另外明確闡述。由此,除非另外明確闡述,所公開的每個特征僅是通用系列的等同或類似特征的一個示例。

此外,權(quán)利要求中未明確闡述用于執(zhí)行指定功能的“裝置”或用于執(zhí)行具體功能的“步驟”的任何元素不應(yīng)該被解釋為35U.S.C.第112章第6段中指定的“裝置”或“步驟”條款。特別地,權(quán)利要求中“步驟”或“動作”的使用在這里不旨在援引35U.S.C.第112章第6段的規(guī)定。

在詳細描述本發(fā)明之前,首先提供引用文獻列表。接著,提供本發(fā)明的各種主要方面的描述。隨后,簡介給讀者提供本發(fā)明的大體了解。接著,提供本發(fā)明的細節(jié),以給出特定方面的理解。最后,提供實驗結(jié)果,以示出本發(fā)明的示例應(yīng)用的效率和有效性。

(1)所結(jié)合的參考文獻書目的列表

貫穿本申請引用以下參考文獻。為了清楚且方便起見,參考文獻在此被列出為用于讀者的中心資源。以下參考文獻通過引用結(jié)合于此,就像完全包括在此一樣。通過參照對應(yīng)參考文獻號在本申請中引用參考文獻,如下:

1、B.Douillard、D.Fox、F.Ramos以及H.Durrant-Whyte。Classification and semantic mapping of urban environments,在2011年IJRR中。

2、K.Lai和D.Fox.Object recognition In 3D point clouds using web data and domain adaptation。2010年IJRR,29(8)。

3、X.Xiong和D.Huber。Using context to create semantic 3D models of indoor environments。在會刊BMVC 2010中。

4、W.L.Lu,K.Okuma和J.J.Little。A hybrid conditional random field for estimating the underlying ground surface from airborne lidar data。2009年IEEE T-GRS,47(8)。

5、B.Douillard、J.Underwood、V.Vlaskine、A.Quadros以及S.Singh。A pipeline for the segmentation and classification of 3D point clouds。在2010年國際實驗機器人研討會(ISER)的會刊中。

6、Point Cloud Library,http://www.pointclouds.org/documentation/tutorials/planar_segmentation.php,2004年5月1日作出。

7、Radu Bogdan Rusu,“Semantic 3D object maps for everyday manipulation in human living environments”,博士論文,2009年。

8、2014年5月1日提交的題為“Adaptive 3D to 2D Projection for Different Height Slices and Extraction of Robust Morphological Features for 3D Object Recognition”的第61/987,122號美國臨時申請。

9、斯坦福3D掃描知識庫,http://graphics.stanford.edu/data/3Dscanrep/,2013年9月2日最后修改,2014年5月1日采集。

10、KITTI vision Benchmark Suite http://www.cvlibs.net/datasets/kitti/,2014年5月1日采集。

(2)主要方面

本發(fā)明具有三個“主要”方面。第一方面是用于過濾、分割并且識別無約束環(huán)境中的對象的系統(tǒng)。該系統(tǒng)通常為計算機系統(tǒng)操作軟件的形式或為“硬編碼”指令集的形式。該系統(tǒng)可以結(jié)合到提供不同功能的廣泛多種裝置中。第二主要方面是通常為軟件形式的使用數(shù)據(jù)處理系統(tǒng)(計算機)操作的方法。第三主要方面是計算機程序產(chǎn)品。計算機程序產(chǎn)品通常表示非暫時性計算機可讀介質(zhì)(諸如光存儲裝置(例如光盤(CD)或數(shù)字通用光盤(DVD)或磁存儲裝置(諸如軟盤或磁帶)))上存儲的計算機可讀指令。另外,計算機可讀媒體的非限制性示例包括硬盤、只讀存儲器(ROM)以及閃存型存儲器。下面將更詳細地描述這些方面。

圖1中提供了示出本發(fā)明的系統(tǒng)(即,計算機系統(tǒng)100)的示例的框圖。計算機系統(tǒng)100被構(gòu)造為執(zhí)行與程序或算法關(guān)聯(lián)的計算、處理、操作和/或功能。在一個方面中,這里論述的特定處理和步驟被實現(xiàn)為駐留在計算機可讀存儲單元內(nèi)并且由計算機系統(tǒng)100的一個或更多個處理器執(zhí)行的一系列指令(例如,軟件程序)。在執(zhí)行時,指令使得計算機系統(tǒng)100執(zhí)行特定動作并且展示具體行為(諸如這里所述的行為)。

計算機系統(tǒng)100可以包括被構(gòu)造為傳輸信息的地址/數(shù)據(jù)總線102。另外,一個或更多個數(shù)據(jù)處理單元(諸如處理器104或多個處理器)與地址/數(shù)據(jù)總線102耦合。處理器104被構(gòu)造為處理信息和指令。在一方面中,處理器104是微處理器。另選地,處理器104可以是不同類型的處理器,諸如并行處理器或現(xiàn)場可編程門陣列。

計算機系統(tǒng)100被構(gòu)造為利用一個或更多個數(shù)據(jù)存儲單元。計算機系統(tǒng)100可以包括與地址/數(shù)據(jù)總線102耦合的易失性存儲單元106(例如,隨機存取存儲器(“RAM”)、靜態(tài)RAM、動態(tài)RAM等),其中,易失性存儲單元106被構(gòu)造為存儲用于處理器104的信息和指令。計算機系統(tǒng)100還可以包括與地址/數(shù)據(jù)總線102耦合的非易失性存儲單元108(例如,只讀存儲器(“ROM”)、可編程ROM(“PROM”)、可擦除可編程ROM(“EPROM”)、電可擦除可編程ROM(“EEPROM”)、閃存等),其中,非易失性存儲單元108被構(gòu)造為存儲用于處理器104的靜態(tài)信息和指令。另選地,計算機系統(tǒng)100可以執(zhí)行從在線數(shù)據(jù)存儲單元(諸如在“云”計算中)檢索的指令。在一方面中,計算機系統(tǒng)100還可以包括與地址/數(shù)據(jù)總線102耦合的一個或更多個接口,諸如接口110。一個或更多個接口被構(gòu)造為使得計算機系統(tǒng)100能夠與其它電子裝置以及計算機系統(tǒng)對接。由一個或更多個接口實現(xiàn)的通信接口可以包括有線(例如,串行線纜、調(diào)制解調(diào)器、網(wǎng)絡(luò)適配器等)和/或無線(例如,無線調(diào)制解調(diào)器、無線網(wǎng)絡(luò)適配器等)通信技術(shù)。

在一方面中,計算機系統(tǒng)100可以包括與數(shù)據(jù)/地址總線102耦合的輸入裝置112,其中,輸入裝置112被構(gòu)造為將信息和命令選擇傳輸?shù)教幚砥?00。根據(jù)一方面,輸入裝置112是可以包括字母數(shù)字和/或功能鍵的字母數(shù)字輸入裝置(諸如鍵盤)。另選地,輸入裝置112可以是除了字母數(shù)字輸入裝置之外的輸入裝置。在一方面中,計算機系統(tǒng)100可以包括與地址/數(shù)據(jù)總線102耦合的光標控制裝置114,其中,光標控制裝置114被構(gòu)造為將用戶輸入信息和/或命令選擇傳輸?shù)教幚砥?00。在一方面中,光標控制裝置114使用裝置(諸如鼠標、跟蹤球、跟蹤平板、光學跟蹤裝置或觸摸屏)來實現(xiàn)。盡管如上所述,但是在一方面中,光標控制裝置114經(jīng)由來自輸入裝置112的輸入(諸如響應(yīng)于與輸入裝置112關(guān)聯(lián)的特殊鍵和鍵序列命令的使用)被指導和/或啟動。在另選方面中,光標控制裝置114被構(gòu)造為由語音命令來指導或引導。

在一方面中,計算機系統(tǒng)100還可以包括與地址/數(shù)據(jù)總線102耦合的一個或更多個可選計算機可用數(shù)據(jù)存儲裝置(諸如存儲裝置116)。存儲裝置116被構(gòu)造為存儲信息和/或計算機可執(zhí)行指令。在一方面中,存儲裝置116是存儲裝置,諸如磁或光盤驅(qū)動器(例如,硬盤驅(qū)動器(“HDD”)、軟磁盤、光盤只讀存儲器(“CD-ROM”)、數(shù)字通用光盤(“DVD”))。按照一方面,顯示裝置118與地址/數(shù)據(jù)總線102耦合,其中,顯示裝置118被構(gòu)造為顯示視頻和/或圖形。在一方面中,顯示裝置118可以包括陰極射線管(“CRT”)、液晶顯示器(“LCD”)、場發(fā)射顯示器(“FED”)、等離子體顯示器或適于顯示視頻和/或圖形圖像以及用戶可識別的字母數(shù)字字符的任何其它顯示裝置。

這里所提出的計算機系統(tǒng)100是根據(jù)一方面的示例計算環(huán)境。然而,計算機系統(tǒng)100的非限制性示例不嚴格限于計算機系統(tǒng)。例如,一方面提供計算機系統(tǒng)100表示可以根據(jù)這里所述的多個方面使用的一種類型的數(shù)據(jù)處理分析。而且,還可以實現(xiàn)其它計算系統(tǒng)。事實上,本技術(shù)的精神和范圍不限于任何單個數(shù)據(jù)處理環(huán)境。由此,在一方面中,本技術(shù)的多個方面的一個或更多個操作使用由計算機執(zhí)行的計算機可執(zhí)行指令(諸如程序模塊)來控制或?qū)崿F(xiàn)。在一個實現(xiàn)中,這種程序模塊包括被構(gòu)造為執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件和/或數(shù)據(jù)結(jié)構(gòu)。另外,一方面提供了本技術(shù)的一個或更多個方面通過利用一個或更多個分布式計算環(huán)境(諸如由借助通信網(wǎng)絡(luò)鏈接的遠程處理裝置執(zhí)行任務(wù)的情況、或諸如各種程序模塊位于包括存儲器存儲裝置的本地和遠程計算機存儲媒體中的情況)來實現(xiàn)。

圖2中示出具體實現(xiàn)本發(fā)明的計算機程序產(chǎn)品(即,存儲裝置)的說明圖。計算機程序產(chǎn)品被描繪為軟盤200或光盤202(諸如CD或DVD)。然而,如之前提及的,計算機程序產(chǎn)品通常表示任何可兼容非暫時性計算機可讀介質(zhì)上存儲的計算機可讀指令。如關(guān)于本發(fā)明使用的術(shù)語“指令”通常指示計算機上執(zhí)行的一組操作,并且可以表示整個程序的片段或獨立、單獨軟件模塊?!爸噶睢钡姆窍拗菩允纠ㄓ嬎銠C程序代碼(源代碼或目標代碼)和“硬編碼”電子器件(即,編碼到計算機芯片中的計算機操作)?!爸噶睢笨梢源鎯υ谟嬎銠C的存儲器中或存儲在計算機可讀介質(zhì)(諸如軟盤、CD-ROM以及閃盤驅(qū)動器)上。在任一種情況下,指令被編碼在非暫時性計算機可讀介質(zhì)上。

(3)介紹

距離傳感器技術(shù)的最新發(fā)展提供了以高分辨率和高準確度收集大區(qū)域之上的三維(3D)數(shù)據(jù)的能力。所收集的3D數(shù)據(jù)的精確度通常足夠高以不僅捕獲普通大結(jié)構(gòu)(例如,建筑物),而且捕獲更小對象(諸如行人和騎自行車的人)。該改進允許用于寬范圍應(yīng)用的基于3D的場景分析。本發(fā)明通過提供用于有效分割并且分類來自大城市點云的3D對象實體的系統(tǒng)進行這種基于3D的場景分析。

由此,描述了一種用于使用產(chǎn)生3D點云的傳感器捕獲的運動3D數(shù)據(jù)的3D對象分割和識別系統(tǒng)。作為非限制性示例,該文獻描述了分割并且識別對象(諸如城市環(huán)境中的行人和車輛)。然而,應(yīng)理解,系統(tǒng)可以被應(yīng)用至具有廣泛多種3D對象的其它應(yīng)用(例如,室內(nèi)場景、荒野場景)。例如,系統(tǒng)可以用于廣域監(jiān)視、機器人感知、室內(nèi)對象分類等。

如圖3所示,給出輸入3D點云300,系統(tǒng)首先經(jīng)由降采樣302(例如,體元柵格采樣)減小云的大小,這大致上(由于場景的更緊湊數(shù)據(jù))改進隨后操作的計算效率。然后,通過找到最佳擬合平面模型在3D空間中確定地平面,以去除304所述平面。將無人監(jiān)督聚集306步驟應(yīng)用至非地面(例如,地上)點,以(經(jīng)由取閾值308)檢測并且分割一組3D候選二進制大對象310。這些候選3D二進制大對象中的每個利用基于形態(tài)的特征描述器(經(jīng)由特征提取312)來表征,所述特征描述器捕獲3D二進制大對象的垂直切片的3D形狀信息。最后,使用利用地面真實數(shù)據(jù)離線訓練316的分類器模型(使用輸入圖像320生成被注釋為322的二進制大對象并且從其提取324特征)將這些對象分類314到預定義種類中的一個(例如,行人或汽車)中。由此,系統(tǒng)有效地減少并且分割針對管線中提示的對象的3D點云,并且使用輸出用于有效3D場景分析。

(4)本發(fā)明的特定方面

如上所述,系統(tǒng)提供用于分割和識別的管線。例如,圖3示出用于分割和識別的組件,下面更詳細地描述每個組件。應(yīng)注意,管線是靈活的,并且可以在不同情境下容易地置換獨立組件。當前系統(tǒng)提供實現(xiàn)檢測并且識別大點云內(nèi)的每一個對象(從行人到植被、從自行車到消防車、從天線到發(fā)電廠等)的最終目標的主要步驟。

(4.1)點云的過濾和降采樣

管線(pipeline)的第一步驟是對輸入點云進行降采樣302。該步驟的主要目的是在不損失識別準確度的情況下為了換取更有效計算減少云中的點的數(shù)量。點云可以使用任何合適降采樣技術(shù)被降采樣。作為非限制性示例,點云可以使用體元化柵格方法被降采樣,在體元化柵格方法中,3D體元柵格位于輸入點云數(shù)據(jù)之上。在每個體元(即,3D框)中,內(nèi)部的所有點將接近(即,被降采樣至)它們的質(zhì)心。例如,設(shè)想汽車的密集點云。系統(tǒng)首先使用如圖4所示的體元化柵格劃分點云。然后,在每個體元內(nèi),系統(tǒng)刪除除了中心點之外的每一個點。最終結(jié)果是與初始點云相比稀疏很多的(汽車的)點云。為了本發(fā)明的目的,系統(tǒng)不要求點云的全“分辨率”。該方法比以體元為中心接近它們稍微更慢,但是該方法更準確地表示在下表面(underlying surface),以防止識別準確度的損失。例如,圖4示出利用體元柵格劃分車輛的點云的示例。

3D體元柵格可以借助分層八叉樹數(shù)據(jù)結(jié)構(gòu)來有效地創(chuàng)建。八叉樹數(shù)據(jù)結(jié)構(gòu)是本領(lǐng)域技術(shù)人員通常理解的概念,其中,八叉樹是每個八叉樹節(jié)點具有八個子節(jié)點或沒有子節(jié)點的樹數(shù)據(jù)結(jié)構(gòu)。根節(jié)點描述了封裝所有點的立體邊界框。在每一個樹層級處,該空間由固定因子進一步細分,這產(chǎn)生增加的體元分辨率。例如,系統(tǒng)可以利用如在點云庫(PCL)(參見第6個參考文獻)中實現(xiàn)的體元柵格功能。

(4.2)地平面去除

在本申請的情境中,期望識別并且去除其它對象實體(例如,建筑物、汽車、行人)所在的“地平面”。這將平面模型基本擬合到點云并且找出具有最大數(shù)量點的平面。為了加速搜索過程,將隨機樣本一致性(RANSAC)算法用于生成模型假說。在該非限制性示例中,平面去除算法主要涉及以下步驟:

1、從3D點云P隨機地選擇三個非共線唯一點;

2、使用方程:ax+by+cz+d=0根據(jù)三個點計算平面模型系數(shù);

3、計算從屬于3D點云P的所有點到平面模型(a,b,c,d)的距離;以及

4、對屬于P的點p*的、到平面模型的距離落在預定義范圍(例如,閾值)內(nèi)的數(shù)量進行計數(shù)。合適閾值的非限制性示例為小于0.1米(在0.0米至0.1米的范圍內(nèi))。

第四步驟表示對特定模型進行“評分”的許多方式中的一個。存儲點p*的每一個集合,并且多次迭代重復上述步驟。注意,迭代的次數(shù)可以用啟發(fā)法來估算。

在終止處理之后,具有最大數(shù)量點(內(nèi)點)的集合被選擇為用于所找到的最佳平面模型的支持。那些點可以在管線中的下一個步驟之前從原始點云被去除。例如,圖5示出輸入點云500、地平面502、以及(去除地平面502之后)地平面之上的對象504。如所示的,因為大量點屬于地平面502,所以它們被濾除,這有助于加速隨后操作。

注意,如所示的模型僅將大平面模型擬合到整個點云,并且假定它是跨整個場景的地面。在處理具有不均勻平坦的表面的場景時,這可能不理想。由此,可以通過將多個更小平面模型(每個模型具有不同表面方位)擬合到整個場景來修改系統(tǒng)。

(4.3)借助聚集分割3D候選二進制大對象

使用聚集將未組織點云劃分為更小部分,以生成用于識別的對象候選二進制大對象。系統(tǒng)可以采用任何合適聚集技術(shù)。例如,更簡單聚集方法中的大部分依賴于尋找細分和邊界以允許基于“接近度”的測量將數(shù)據(jù)分組在一起的空間分解技術(shù)。該接近度的測量通常被表示為明科夫斯基(Minkowski)范式,最流行示例是曼哈頓(Manhattan)(L1)和歐幾里德(Euclidean)(L2)距離測度。

歐幾里德意義上的簡單數(shù)據(jù)聚集方法可以通過使用在更早步驟中創(chuàng)建的八叉樹數(shù)據(jù)結(jié)構(gòu)來實現(xiàn)。雖然該特定表示被快速建立,但是它僅可用于要求相等空間細分的應(yīng)用。對于群集可以具有非常不同大小的情況,可能需要更復雜算法。

再調(diào)用以下情境:給出表示室外城市環(huán)境的輸入點云和表示地平面的幾何平面模型,期望目的是找到并且分割位于地平面之上的對象實體。為了實現(xiàn)該目的,系統(tǒng)需要理解對象點群集是什么和什么將區(qū)分點群集本身與另一個點群集。在更多數(shù)學設(shè)置中,群集被定義如下。如果min||pi-pj||2>dth,則使Oi={pi∈P}為與Oj={pj∈P}不同的點群集,其中,dth是最大施加距離閾值(例如,群集容差0.5,如圖3中的元素306所示)。上述方程闡述了如果一個點集合pi與另一個集合pj之間的最小距離大于給定距離值,那么pi中的點被設(shè)置為屬于一個點群集,并且pj中的點屬于另一個不同點群集。從實現(xiàn)觀點看,如何估算兩個集合之間的該最小距離的概念是重要的。解決方案是經(jīng)由傳統(tǒng)kd樹表示使用近似最近鄰居查詢。用于對象聚集的整體算法步驟如下:

1、創(chuàng)建用于輸入點云數(shù)據(jù)集P的kd樹表示;

2、設(shè)置空群集列表C和需要被檢驗的點的隊列Q;

3、對于每一個點pi∈P,執(zhí)行以下操作:

i.將pi添加到當前隊列Q;

ii.對于每一個點pi∈Q,進行:

iii.將所有鄰近點遞歸地添加在具有固定半徑的球面中,并且當Q中的所有點的列表已被處理時,將Q添加到群集列表C,并且將Q重置為空列表;以及

4、當原始點云中的所有點已被處理并且現(xiàn)在是群集列表C的一部分時結(jié)束。

在使用上述過程提取初始群集之后,然后進行另外過濾步驟(被示出為圖3中的元素308),以去除過小/過大3D群集(例如,具有100個像素的最小群集大小、800個像素的最大群集大小)。再次參照圖3,在過濾步驟308中幸存的群集被認為是3D候選對象二進制大對象310,并且被傳遞到管線的下一個步驟以用于特征提取312。

圖5和圖6中示出該處理的示例。具體地,將聚集306和過濾308應(yīng)用至地平面之上的對象(被示出為圖5中的元素504)。所得到的聚集306和過濾308構(gòu)建單獨歐幾里德對象3D二進制大對象的集合(被示出為圖6中的元素600)。每個3D二進制大對象600可以用數(shù)字識別(或其它識別技術(shù))來唯一地識別,使得可以根據(jù)算法方便地檢索3D二進制大對象600。

(4.4)特征提取

3D點云提供關(guān)于周圍世界的有用信息;然而,它難以從3D對象提取魯棒特征以用于識別。這種困難的主要原因是與規(guī)則且均勻采樣的2D圖像相比,在3D空間中不規(guī)則地分散點云數(shù)據(jù)。不規(guī)則分散的點云可以是對象進一步遠離傳感器的結(jié)果,這可能產(chǎn)生相對稀疏點云。雖然可以采用任何特征提取技術(shù),但是一些技術(shù)可以提供比其它技術(shù)更好的結(jié)果。例如,系統(tǒng)可以采用不同高度切片處的自適應(yīng)3D至2D投影技術(shù)以提取形態(tài)特征(參見第8個參考文獻)?;舅枷胧菍?D二進制大對象投影到處于各種高度的多個2D圖像切片。如果樣本切片足夠詳細(類似于CT/MRI掃描切片),則2D切片包含對象的所有3D形狀信息。2D圖像切片是規(guī)則隔開的圖像,并且由此,所有可用圖像處理技術(shù)可以被應(yīng)用以處理這些圖像切片。這種圖像處理技術(shù)的非限制性示例包括空間過濾、視點無關(guān)特征提取、以及其它操作。此外,根據(jù)3D點云密度來自適應(yīng)地選擇2D圖像分辨率,以避免在點云數(shù)據(jù)非常稀疏時形成病態(tài)圖像。通常,自適應(yīng)采樣方案允許系統(tǒng)處理具有少至每對象50-100個點的點云數(shù)據(jù)。作為非限制性示例,每個3D二進制大對象可以被分解為六個切片,并且從每個切片提取七個形態(tài)特征連同其它不變矩特征。簡言之,每個3D二進制大對象可以通過166維特征向量被特征化。例如,圖7是使針對不同種類的所提取特征向量可視化的示例。X軸是特征維度701(即,166維),而Y軸表示來自不同種類的獨立3D對象703(即,每行是對象)。如可以從圖7看到的,來自相同種類的對象呈現(xiàn)類似特征圖案,而來自不同種類的對象具有更不同的圖案。

雖然以黑白示出,但是應(yīng)理解,在實際操作中,可能期望以彩圖形式使針對不同種類的所提取特征向量可視化。可以針對不同種類(汽車700、騎自行車的人702、行人704以及背景706)觀察(特征向量的)不同視覺特性。每行是3D二進制大對象的特征向量,并且屬于四個種類中的一個。針對不同種類的整體特征在視覺上相當不同。

(4.5)分類

標準監(jiān)督學習范例在系統(tǒng)中適用于3D對象分類。對于每類對象(例如,行人、汽車等),以一對所有的方式訓練316支持向量機(SVM)模型。當生成新3D候選二進制大對象時,該大對象將被饋送給針對不同種類訓練的模型。將識別給出最高置信度得分的一個模型(種類預測314),并且3D二進制大對象將被分類為對應(yīng)對象種類。

(5)實驗結(jié)果

為了驗證系統(tǒng)的效率,使用來自斯坦福3D知識庫(參見第9個參考文獻)和KITTI Benchmark Suite(參見第10個參考文獻)的點云數(shù)據(jù)集來評估系統(tǒng)。第一個數(shù)據(jù)集僅提供各種對象的3D二進制大對象,而第二數(shù)據(jù)集提供不同城市設(shè)置中的Velodyne掃描的全序列。在斯坦福數(shù)據(jù)集中具有四個主要種類(即,騎自行車的人、汽車、行人以及背景),并且在KITTI數(shù)據(jù)集中具有六個種類(即,汽車、騎自行車的人、廂式貨車、電車、卡車)。來自斯坦福數(shù)據(jù)集的所有數(shù)據(jù)(3D二進制大對象)被用于根據(jù)來自KITTI數(shù)據(jù)集的6個順序掃描的子集生成3D候選二進制大對象(總共4700個二進制大對象)。

在3D二進制大對象的訓練/測試劃分方面,在來自斯坦福數(shù)據(jù)集的標準劃分之后,均勻地劃分來自KITTI數(shù)據(jù)集的3D二進制大對象。在所有SVM模型中使用線性SVM內(nèi)核。觀察到,針對斯坦福數(shù)據(jù)集中的所有種類,獲得多于95%的分類準確度,并且使用具有非標準化morpFt_166特征的SVM線性內(nèi)核獲得多于85%的準確度。由此,清楚的是,根據(jù)本發(fā)明的系統(tǒng)對于過濾、分割并且識別三維數(shù)據(jù)中的對象是有效的。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1