本發(fā)明涉及計算機圖像處理中的視覺目標跟蹤技術(shù)領(lǐng)域,特別涉及一種基于時空約束的跨鏡頭多目標跟蹤方法及裝置。
背景技術(shù):
視頻目標跟蹤是指給定目標在視頻中的初始位置,然后輸出該目標在視頻中的每一個時刻的位置。物體跟蹤是計算機視覺中一個重要的問題,通常是視頻分析處理的第一步。因此有大量學者從事物體跟蹤的研究,以及眾多有效的物體跟蹤的算法被提出來。在一些監(jiān)控場景下,需要在一個復(fù)雜的場景下同時跟蹤多個物體。多個物體之間的相互遮擋增加了物體跟蹤的難度,這一點在行人的跟蹤經(jīng)常出現(xiàn)。當一大群人同時出現(xiàn)在攝像設(shè)備畫面中時,每個人之間相互重疊使得無法準確的獲取其實際位置。目前多目標追蹤方法主要分為兩類:基于單攝像頭的多目標追蹤和基于多攝像相機的多目標的追蹤方法
基于單攝像頭的多目標追蹤方法主要有基于幀間tracklet拼接的方法和全局優(yōu)化的方法。tracklet拼接和基于線性規(guī)劃的lp跟蹤是在整個序列同時優(yōu)化所有的軌跡另外兩種方法。首先生成跟蹤小片段,這是由傳統(tǒng)群體檢測結(jié)果形成軌跡片段。然后,這些跟蹤小片段通過匈牙利分區(qū)算法進行連接。這種方法假定所有跟蹤小片段都是正確的軌跡,因此很難擴展到在每個原始軌跡片段中許多誤檢測的情形。對每個對象的軌跡與它們之間的邊生成子圖,每個對象之間通過邊進行交互。在子圖中利用近似線性規(guī)劃和舍入解決一個多路徑搜索問題。它假設(shè)物件相對關(guān)系位置相對穩(wěn)定的,以及目標的數(shù)量是固定的。
基于多攝像頭的方法,目前主要關(guān)注如何進行多攝像頭的數(shù)據(jù)融合,主要有基于攝像設(shè)備標定的方法和特征匹配的方法?;跀z像設(shè)備標定的方法主要是利用攝像設(shè)備投影矩陣,將不同的攝像設(shè)備畫面投影到同一個畫面上。對于基于特征匹配的方法,主要是通過尋找高效的表觀特征和時空信息來提高匹配結(jié)果。多攝像設(shè)備的追蹤問題由于不同鏡頭間有較大的光照和視角差異,相比于攝像設(shè)備的跟蹤問題,具有更大的挑戰(zhàn)性。
然而,針對于復(fù)雜場景下多個物體的跟蹤問題,其中一個有效途徑是利用多攝像頭監(jiān)控系統(tǒng)。在多個攝像設(shè)備重合的監(jiān)控區(qū)域,可以借助多個攝像設(shè)備的信息來較為準確的獲取物體的位置。隨著傳感器和處理器價格的下降,在很多場景下多攝像頭配合使用也變得越來越普遍。多攝像頭實時跟蹤問題主要有兩個部分:攝像頭內(nèi)部的跟蹤和跨攝像頭跟蹤。其中跨攝像頭跟蹤問題中的重復(fù)覆蓋區(qū)域,以及未覆蓋區(qū)域的處理方法,在很多文章中都有討論隨著安保和行人數(shù)據(jù)分析等需求,基于多攝像頭的多目標的跟蹤是很有意義的,但同時由于其問題的復(fù)雜性,這項工作也具有很大的挑戰(zhàn)性。最近有學者提出了多種利用多個攝像頭的信息來提高物體跟蹤的魯棒性,但是它們忽略了幾何約束等問題,違反了幾何假設(shè),需要更復(fù)雜的方法來解決由此帶來的誤差。
技術(shù)實現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的一個目的在于提出一種基于時空約束的跨鏡頭多目標跟蹤方法,該方法可以在提高物體跟蹤的魯棒性的同時,減少跟蹤誤差,提高跟蹤的準確性。
本發(fā)明的另一個目的在于提出一種基于時空約束的跨鏡頭多目標跟蹤裝置。
為達到上述目的,本發(fā)明一方面實施例提出了一種基于時空約束的跨鏡頭多目標跟蹤方法,包括以下步驟:對不同的色彩空間進行圖像預(yù)處理,使圖片在色溫和色調(diào)上一致,以獲取多個攝像設(shè)備的攝像信息;通過攝像設(shè)備的投影矩陣建立2d點的對應(yīng)關(guān)系,以獲取所述多個攝像設(shè)備之間的幾何信息,其中,所述投影矩陣為關(guān)于3d世界的投影矩陣;根據(jù)所述攝像信息和所述幾何信息進行多個攝像頭之間的人體特征匹配,以利用跟蹤目標的表觀和時空特征獲取每個攝像設(shè)備畫面以及實時的跟蹤結(jié)果。
本發(fā)明實施例的基于時空約束的跨鏡頭多目標跟蹤方法,通過攝像信息和幾何信息進行多個攝像頭之間的人體特征匹配,實現(xiàn)目標的跟蹤,有效結(jié)合目前的多目標跟蹤算法和多攝像頭處理方法,并且利用攝像設(shè)備網(wǎng)絡(luò)位姿關(guān)系矩陣,從而實現(xiàn)基于多攝像頭的多目標物體跟蹤目的,在提高物體跟蹤的魯棒性的同時,減少跟蹤誤差,提高跟蹤的準確性。
另外,根據(jù)本發(fā)明上述實施例的基于時空約束的跨鏡頭多目標跟蹤方法還可以具有以下附加的技術(shù)特征:
進一步地,在本發(fā)明的一個實施例中,所述根據(jù)所述攝像信息和所述幾何信息進行多個攝像頭之間的人體特征匹配,進一步包括:在所述多個攝像設(shè)備中任意一個攝像設(shè)備檢測到跟蹤目標時,通過所述投影矩陣將所述跟蹤目標的位置投影到地面對應(yīng)的坐標系中;將所有的點進行聚類分析,以獲取所述多個攝像設(shè)備中其它攝像設(shè)備中的同一個跟蹤目標。
進一步地,在本發(fā)明的一個實施例中,所述獲取所述多個攝像設(shè)備中其它攝像設(shè)備中的同一個跟蹤目標,進一步包括:獲取所有結(jié)果中最優(yōu)的組,所述最優(yōu)的組為攝像設(shè)備數(shù)目最多且相位位置誤差最??;通過所述最優(yōu)的組確定所述跟蹤目標的3d坐標,以根據(jù)所述跟蹤目標的3d坐標去除組中所選的偏差大于第一預(yù)設(shè)值的點,并且在剩余的點中選擇偏差小于第二預(yù)設(shè)值的點,移除集合,直至所有的點選出集合。
進一步地,在本發(fā)明的一個實施例中,采用hough投票方法,并且根據(jù)人體多個攝像設(shè)備的位置以及攝像設(shè)備的位姿信息確定行人的位置。
進一步地,在本發(fā)明的一個實施例中,在跟蹤中,還包括:將所述跟蹤結(jié)果與行人模型進行匹配,以消除誤匹配、遮擋和漏檢測問題,其中,行人模型包含速度、當前位置、色彩特征、第一次出現(xiàn)時間、軌跡和當前狀態(tài)中的一種或多種參數(shù)。
為達到上述目的,本發(fā)明另一方面實施例提出了一種基于時空約束的跨境頭多目標跟蹤裝置,包括:預(yù)處理模塊,用于對不同的色彩空間進行圖像預(yù)處理,使圖片在色溫和色調(diào)上一致,以獲取多個攝像設(shè)備的攝像信息;采集模塊,用于通過攝像設(shè)備的投影矩陣建立2d點的對應(yīng)關(guān)系,以獲取所述多個攝像設(shè)備之間的幾何信息,其中,所述投影矩陣為關(guān)于3d世界的投影矩陣;跟蹤模塊,用于根據(jù)所述攝像信息和所述幾何信息進行多個攝像頭之間的人體特征匹配,以利用跟蹤目標的表觀和時空特征獲取每個攝像設(shè)備畫面以及實時的跟蹤結(jié)果。
本發(fā)明實施例的基于時空約束的跨鏡頭多目標跟蹤裝置,通過攝像信息和幾何信息進行多個攝像頭之間的人體特征匹配,實現(xiàn)目標的跟蹤,有效結(jié)合目前的多目標跟蹤算法和多攝像頭處理方法,并且利用攝像設(shè)備網(wǎng)絡(luò)位姿關(guān)系矩陣,從而實現(xiàn)基于多攝像頭的多目標物體跟蹤目的,在提高物體跟蹤的魯棒性的同時,減少跟蹤誤差,提高跟蹤的準確性。
另外,根據(jù)本發(fā)明上述實施例的基于時空約束的跨鏡頭多目標跟蹤裝置還可以具有以下附加的技術(shù)特征:
進一步地,在本發(fā)明的一個實施例中,所述跟蹤模塊還用于在所述多個攝像設(shè)備中任意一個攝像設(shè)備檢測到跟蹤目標時,通過所述投影矩陣將所述跟蹤目標的位置投影到地面對應(yīng)的坐標系中,并且將所有的點進行聚類分析,以獲取所述多個攝像設(shè)備中其它攝像設(shè)備中的同一個跟蹤目標。
進一步地,在本發(fā)明的一個實施例中,所述跟蹤模塊還用于獲取所有結(jié)果中最優(yōu)的組,所述最優(yōu)的組為攝像設(shè)備數(shù)目最多且相位位置誤差最小,并且通過所述最優(yōu)的組確定所述跟蹤目標的3d坐標,以根據(jù)所述跟蹤目標的3d坐標去除組中所選的偏差大于第一預(yù)設(shè)值的點,并且在剩余的點中選擇偏差小于第二預(yù)設(shè)值的點,移除集合,直至所有的點選出集合。
進一步地,在本發(fā)明的一個實施例中,還包括:定位模塊,用于采用hough投票方法,并且根據(jù)人體多個攝像設(shè)備的位置以及攝像設(shè)備的位姿信息確定行人的位置。
進一步地,在本發(fā)明的一個實施例中,還包括:匹配模塊,用于將所述跟蹤結(jié)果與行人模型進行匹配,以消除誤匹配、遮擋和漏檢測問題,其中,行人模型包含速度、當前位置、色彩特征、第一次出現(xiàn)時間、軌跡和當前狀態(tài)中的一種或多種參數(shù)。
本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
附圖說明
本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1為根據(jù)本發(fā)明實施例的基于時空約束的跨鏡頭多目標跟蹤方法的流程圖;
圖2為根據(jù)本發(fā)明一個具體實施例的基于時空約束的跨鏡頭多目標跟蹤方法的流程圖;
圖3為根據(jù)本發(fā)明一個實施例的某一時刻的檢測結(jié)果示意圖;
圖4為根據(jù)本發(fā)明一個實施例的定位和聚類結(jié)果示意圖;
圖5為根據(jù)本發(fā)明一個實施例的攝像機檢測結(jié)果示意圖;
圖6為根據(jù)本發(fā)明一個實施例的定位結(jié)果示意圖;
圖7為根據(jù)本發(fā)明一個實施例的實際跟蹤結(jié)果示意圖;
圖8為根據(jù)本發(fā)明實施例的基于時空約束的跨鏡頭多目標跟蹤裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
下面參照附圖描述根據(jù)本發(fā)明實施例提出的基于時空約束的跨鏡頭多目標跟蹤方法及裝置,首先將參照附圖描述根據(jù)本發(fā)明實施例提出的基于時空約束的跨鏡頭多目標跟蹤方法。
圖1是本發(fā)明實施例的基于時空約束的跨鏡頭多目標跟蹤方法的流程圖。
如圖1所示,該基于時空約束的跨鏡頭多目標跟蹤方法包括以下步驟:
在步驟s101中,對不同的色彩空間進行圖像預(yù)處理,使圖片在色溫和色調(diào)上一致,以獲取多個攝像設(shè)備的攝像信息。
具體地,首先攝像設(shè)備(下面均以攝像機為例)需要進行預(yù)處理。其中,在色彩學中,可以利用很多種色彩模型來描述一種顏色,常用的有rgb色彩空間,lab色彩空間,cmyk圖像預(yù)處理,減少不同攝像機的差異很有必要色彩空間,hsv色彩空間等。在原始的多個攝像機畫面中,由于攝像機朝向,光照以及設(shè)備差異的影響,同一物體在不同的攝像機畫面中有不同的顏色,而且由于在后面進行目標跟蹤時,本發(fā)明實施例利用到了行人的顏色統(tǒng)計信息作為其重要特征,所以在不同的色彩空間進行了圖像預(yù)處理。
舉例而言,目前四個攝像頭雖然畫面顯示的是同一個地面,同一時刻的照片,但是四張圖片在色溫和色調(diào)上有較大的差異,這將影響以后的多個攝像頭之間的人體特征匹配。因此,本發(fā)明實施例采取一種簡單有效的算法,在lab色彩空間進行同均值,同方差處理后的結(jié)果最好,這是由于lab色彩空間三個通道的耦合度最小,而且處理后圖像無噪點出現(xiàn),也無嚴重的色彩失真。
其中,首先固定
在步驟s102中,通過攝像設(shè)備的投影矩陣建立2d點的對應(yīng)關(guān)系,以獲取多個攝像設(shè)備之間的幾何信息,其中,投影矩陣為關(guān)于3d世界的投影矩陣。
在步驟s103中,根據(jù)攝像信息和幾何信息進行多個攝像頭之間的人體特征匹配,以利用跟蹤目標的表觀和時空特征獲取每個攝像設(shè)備畫面以及實時的跟蹤結(jié)果。
其中,在本發(fā)明的一個實施例中,根據(jù)攝像信息和幾何信息進行多個攝像頭之間的人體特征匹配,進一步包括:在多個攝像設(shè)備中任意一個攝像設(shè)備檢測到跟蹤目標時,通過投影矩陣將跟蹤目標的位置投影到地面對應(yīng)的坐標系中;將所有的點進行聚類分析,以獲取多個攝像設(shè)備中其它攝像設(shè)備中的同一個跟蹤目標。
進一步地,在本發(fā)明的一個實施例中,獲取多個攝像設(shè)備中其它攝像設(shè)備中的同一個跟蹤目標,進一步包括:獲取所有結(jié)果中最優(yōu)的組,最優(yōu)的組為攝像設(shè)備數(shù)目最多且相位位置誤差最??;通過最優(yōu)的組確定跟蹤目標的3d坐標,以根據(jù)跟蹤目標的3d坐標去除組中所選的偏差大于第一預(yù)設(shè)值的點,并且在剩余的點中選擇偏差小于第二預(yù)設(shè)值的點,移除集合,直至所有的點選出集合。
具體地,基于多攝像頭的多目標跟蹤,本發(fā)明實施例在綜合比較多種物體檢測算法后,利用faster-r-cnn進行物體檢測,然后圖像中的2d點和世界中的3d點有如下的對應(yīng)關(guān)系,h稱為攝像機的投影矩陣:
其中,兩個攝像機可以通過其關(guān)于3d世界的投影矩陣建立關(guān)系,即建立2d點的對應(yīng)關(guān)系:
在本發(fā)明的實施例中,可以把大地看作一個巨大的相機,然后求解出所有相機關(guān)于大地的投影矩陣。已知攝像機i到大地的投影矩陣hi→g,攝像機i中的任意一點(xi,yi),則其在大地對應(yīng)的坐標
在第i個攝像機畫面中檢測到了ni個人,其位置為
其中,
(1)先找到所有結(jié)果中最優(yōu)的組(攝像機數(shù)目最多,且相對位置誤差較小)。具體為,首先利用位置和色彩信息對備選集進行聚類。然后利用聚類中心特征信息進行篩選,然后利用剩余可靠的元素,計算最優(yōu)的位置,具體計算算法在下面的章節(jié)給出。
(2)利用這組中的結(jié)果確定該人的3d坐標,然后根據(jù)該坐標去除組中所選的偏差比較大的點,并在剩余的點中選擇偏差較小的點,移除集合。具體為,利用上面的計算結(jié)果得到該人的位置以及色彩特征,然后在剩余集合中尋找可能是這個人的元素但是由于之前聚類算法并沒有聚到該類的元素,并移除備選集合。然后利用色彩特征和位置去除該類中不是該人的元素,重新放回備選集合中。
(3)重復(fù)(1),(2)的操作,直到所有的點選出集合。
進一步地,在本發(fā)明的一個實施例中,采用hough投票方法,并且根據(jù)人體多個攝像設(shè)備的位置以及攝像設(shè)備的位姿信息確定行人的位置。
具體地,對于hough投票方法實現(xiàn),人體在兩個攝像機中大地上的方向投影的線段的交點更有可能是真實的行人在大地上的位置,按照這個思路,可以采用hough投票的思想,綜合考慮人體多個攝像機的位置以及該攝像機的位姿信息確定行人的位置。假設(shè)所有的攝像機畫面都是水平的,即在攝像畫面中,每個人頭部和腳部x坐標的數(shù)值是一樣的,根據(jù)式,將攝像機畫面中的立足點(x,y)和(x,y+∈)投影到地面上得到(x′1,y′1)和(x′2,y′2)。則
從上面計算中可以得到在攝像機i,與大地平面的映射矩陣為hi→g,中任意一個點(x,y),在大地平面上的坐標為(x′,y′),且投影方向是
如圖3所示,在實際的人體檢測的輸出中,立足點的估計往往是帶有一定誤差的。第三個攝像機右邊第二個人的檢測結(jié)果的矩形框。
從圖4中,圓形表示hough投票,星星表示傳統(tǒng)方法結(jié)果,cam1用4號實線表示,cam2用3號實線表示,cam3用2號實線表示,cam4用1號實線表示,其中,每條線的中心是在該攝像機下行人立足點投影在地面的位置。可以看出利用hough投票的方法得到的結(jié)果一般出現(xiàn)在多個攝像機投影方向的匯聚處。例如在大地坐標下左下角的人,他在cam1,cam2,cam3中出被檢測到了,其中cam1,cam2中檢測的位置準確的,而cam3檢測的立足點偏差較大,但是在每個攝像機中檢測到的人體的方向是準確的,即矩形框的左右位置是可靠地??梢宰⒁獾皆诖蟮仄矫嫔先齻€攝像機中心點并不重合而且位置相差很大,但是三條直線幾乎交于一點,說明通過hough投票確定的位置可信度大大提高。為了處理可能出現(xiàn)的如cam2中左邊第二個矩形框左右定位不準的情況,在算法中利用了randsec思想,即并不是所有的數(shù)據(jù)全部聯(lián)合到一起是最優(yōu)的,而可以找到一個最優(yōu)的數(shù)據(jù)組合,其結(jié)果可信度最高,方差最小。在平面上,兩條直線可以確定一個點,所以在算法中,隨機從集合中選取2個攝像機然后求解出對應(yīng)的位置,然后計算在這個位置下的全局損失函數(shù),然后在多個組合中選取損失函數(shù)最小的位置,這樣可以去除個別誤差較大的定位信息影響。這一點在攝像機數(shù)目有限(通常小于等于4個)時,能很好地提高定位的準確性。
圖5中所示是攝像機覆蓋區(qū)域有7個人時的情形。其中有三個人被四個攝像機同時看到,即在大地中間偏右的兩人,以及在cam1最左邊,cam3最右邊的男子。中間的剩余兩個人被三個攝像機同時看到。剩下的除了最上面只在cam4中被檢測到的,兩人都在兩個攝像機畫面中出現(xiàn)。在圖6的定位結(jié)果中可以看到利用hough投票的方法得到的結(jié)果是非常準確的,這一點可以由每個人之間的相對位置以及,投影線的匯聚程度看出。除了最上面的只被cam4檢測到那個人之外,其余的行人每個攝像機的投影直線都幾乎相交于一點。注意到其中有兩個檢測框的位置有較大的誤差,第一個是cam4中左邊第二個較小的矩形框,由于腳步被遮擋導(dǎo)致識別結(jié)果偏上,而且由于該人距離cam4的距離較遠,誤差通過投射時分辨率的放大,可以看到在大地平面上(左上角的紅線,中心是基于cam4立足點估計投射到地面的結(jié)果),其與真實結(jié)果相差100多個像素值,但是注意到其方向的誤差是很小的,其延長線幾乎通過了利用另外三個攝像機確定的位置。cam2中最右邊的矩形框,立足點識別也帶有一定的誤差。而且由于距離cam2較遠,誤差通過分辨率放大,導(dǎo)致在實際中地面坐標中,該攝像機立足點估計誤差為50多個像素值,但是投影方向的誤差很小,可以看到最最后行人的定位結(jié)果是同時用到了兩個攝像機畫面的信息實現(xiàn)了精準定位。
數(shù)學描述:
其中,
上面的問題可以轉(zhuǎn)化一個最小費用流的優(yōu)化問題,求取全局最優(yōu)解可以利用最小費用流求解算法得到。但是注意到一個實際的跟蹤問題是要求實時性和因果性,即預(yù)測當前幀時只能考慮之前幀的,而不能受到后面結(jié)果的影響。
(1)先找到置信度最該的匹配---遮擋最少,人群密度稀疏的點。具體為在當前檢測到所有行人和前一幀的行人進行匹配,找到匹配分數(shù)最高的一組。
(2)將其移除集合e。
(3)在剩余的集合中重復(fù)上述操作。
(4)若當前集合所有的中的置信度最高的低于給定閾值,則判斷剩余的點無相關(guān)關(guān)系,判斷之前行人從畫面中消失,或當前幀出現(xiàn)新的人。
上述方法可以在固定的線性時間內(nèi)求得可行解,而且只用到了當前幀和之前幀的信息。
進一步地,在本發(fā)明的一個實施例中,在跟蹤中,還包括:將跟蹤結(jié)果與行人模型進行匹配,以消除誤匹配、遮擋和漏檢測問題,其中,行人模型包含速度、當前位置、色彩特征、第一次出現(xiàn)時間、軌跡和當前狀態(tài)中的一種或多種參數(shù)。
可以理解的是,由于在跟蹤中,每一步只是簡單考慮了間隔幀之間的關(guān)系,所以出現(xiàn)錯誤匹配的可能性較大,而且在實際的視頻中由于遮擋以及誤檢測和漏檢測的影響,導(dǎo)致可能會出現(xiàn)跟蹤丟失等問題?;谏鲜龅膯栴},本發(fā)明實施例提出一個行人模型,充分利用前面的跟蹤結(jié)果,消除誤匹配,并且允許目標短時間內(nèi)消失已解決遮擋和漏檢測問題。
舉例而言,每個行人模型包含以下參數(shù):
(1)速度:v
(2)當前位置:(x,y)
(3)色彩特征:hist統(tǒng)計特征
(4)第一次出現(xiàn)時間:tappear
(5)軌跡(歷史坐標):
(6)當前:state
然后,在進行多目標跟蹤的時候就是當前幀和已經(jīng)構(gòu)建好的行人模型進行上述基于式的匹配。在得到最后的匹配結(jié)果后對每個行人模型進行更新。具體更新分兩種情況,即在當前幀中找到了與之對應(yīng)的匹配,則認為改行人在這一幀被檢測到,若沒有找到符合要求的匹配,則認為改行人在這一幀丟失。
若檢測到進行如下的信息更新:
(1)速度:υ=α*υ+(1-α)*υnew,υnew=(xnew-ynew)(x,y)
(2)位置:(x,y)=(x,y)+υ
(3)色彩特征:hist=β*hist+(1-β)*histnew
(4)當前狀態(tài):state=1
(5)軌跡更新:(xt,yy)=(x,y)
其中,α是指數(shù)平滑項,來對行人的速度進行平滑處理,減少每一幀估計誤差中噪聲對跟蹤結(jié)果的影響。而且注意到對行人位置不是直接利用當前幀的位置進行更新,而是先更新速度,然后通過速度在更新位置,這樣做的好處是可以利用之前的速度信息,而且由于有最大速度限制,也會減少某一幀誤匹配帶來的問題,但會有一定的滯后性,即若物體的速度發(fā)生較大的變化,該模型需要較長的時間來進行修正,但是考慮到實際跟蹤問題中很少出現(xiàn)類似的情形,所以采取這種策略是利大于的。α的設(shè)定需要綜合考慮,若過小則無法起到濾波的效果,若過大則會對速度改變的響應(yīng)時間非常長,在實驗中經(jīng)過測試0.8-0.9之間是比較合理的。第三個是對行人模型進行色彩特征進行修正,β是修正系數(shù),課已通過長時間的修正是得模型中的色彩特征更符合該人原有的色彩特征,其中β不易過小,在本次試驗中為β=0.99,第四項是狀態(tài)的更新,行人模型的狀態(tài)有丟失和激活兩種狀態(tài),若前一幀該行人處于丟失狀態(tài),則需要修改狀態(tài)為激活。最后將這一幀的位置記錄到軌跡信息中。
若未檢測到進行信息更新:
(1)速度:υ=γ*υ,0≤γ≤1
(2)位置:(x,y)=(x,y)+υ
(3)色彩特征:不變
(4)軌跡更新:(xt,yy)=(x,y)
(5)當前狀態(tài):state=state-1
未檢測到行人有兩種情況,一種是該行人從攝像機畫面中消失,另外一種是由于遮擋或者誤檢測和誤匹配導(dǎo)致的未檢測到該行人。對于前一種情形只需要刪除該行人就可以。對于第二種情形需要保留該行人的所有信息,而且盡可能的為下次檢測匹配做好準備。在實際中,首先有一個速度衰減項γ,行人在丟失后可以繼續(xù)按照原先的速度前進,這樣下一幀進行匹配的時候可以出現(xiàn)在合適的位置,容易得到正確匹配,另外需要對速度進行衰減,這樣做的好處是可以增加系統(tǒng)的穩(wěn)定性,在實驗中γ不易選的過大,過大容易使得行人在丟失后由于沒有真實的信息對其進行修正,移動速度過快不僅會導(dǎo)致自己本身很難再次別檢測到,也會影響到其他人的匹配,但也不易過小,過小則丟失后該模型很快停在原地,同樣會帶來上述的問題,在實際過程中一般去γ=0.9。然后利用速度更新位置信息。同樣的將當前位置添加到軌跡中。最后是十分重要的狀態(tài)調(diào)整環(huán)節(jié),state經(jīng)過上述的調(diào)整,可以反映該行人丟失幀數(shù),若一個行人在較長的一段時間內(nèi)都沒有被激活,則算法會認為該行人已經(jīng)永遠的從監(jiān)控區(qū)域消失,可以將該行人從列表中移除。
最終,將每個攝像機畫面以及實時的跟蹤結(jié)果顯示到一起,如圖7所示。
根據(jù)本發(fā)明實施例提出的基于時空約束的跨鏡頭多目標跟蹤方法,結(jié)合多個相機的信息,同時考慮攝像機間的幾何信息,以及目標的表觀和時空特征實現(xiàn)更有效的數(shù)據(jù)融合,并且利用hough投票確定行人3d位置,利用攝像機先驗,消除傳統(tǒng)方法基于立足點估計不準確的影響,且直接跟蹤行人的3d位置實現(xiàn)以更有效的人分析,以及引入行人模型,綜合考慮多幀的跟蹤結(jié)果,并且考慮行人空間位置和行走軌跡,實現(xiàn)更加魯棒的多目標跟蹤,其中,通過攝像信息和幾何信息進行多個攝像頭之間的人體特征匹配,實現(xiàn)目標的跟蹤,有效結(jié)合目前的多目標跟蹤算法和多攝像頭處理方法,并且利用攝像設(shè)備網(wǎng)絡(luò)位姿關(guān)系矩陣,從而實現(xiàn)基于多攝像頭的多目標物體跟蹤目的,在提高物體跟蹤的魯棒性的同時,減少跟蹤誤差,提高跟蹤的準確性。
其次參照附圖描述根據(jù)本發(fā)明實施例提出的基于時空約束的跨鏡頭多目標跟蹤裝置。
圖8是本發(fā)明實施例的基于時空約束的跨鏡頭多目標跟蹤裝置的結(jié)構(gòu)示意圖。
如圖8所示,該基于時空約束的跨鏡頭多目標跟蹤裝置10包括:預(yù)處理模塊100、采集模塊200和跟蹤模塊300。
其中,預(yù)處理模塊100用于對不同的色彩空間進行圖像預(yù)處理,使圖片在色溫和色調(diào)上一致,以獲取多個攝像設(shè)備的攝像信息。采集模塊200用于通過攝像設(shè)備的投影矩陣建立2d點的對應(yīng)關(guān)系,以獲取多個攝像設(shè)備之間的幾何信息,其中,投影矩陣為關(guān)于3d世界的投影矩陣。跟蹤模塊300用于根據(jù)攝像信息和幾何信息進行多個攝像頭之間的人體特征匹配,以利用跟蹤目標的表觀和時空特征獲取每個攝像設(shè)備畫面以及實時的跟蹤結(jié)果。本發(fā)明實施例的裝置10通過結(jié)合目前的多目標跟蹤算法和多攝像頭處理方法,并且利用攝像設(shè)備網(wǎng)絡(luò)位姿關(guān)系矩陣,從而實現(xiàn)基于多攝像頭的多目標物體跟蹤目的,在提高物體跟蹤的魯棒性的同時,減少跟蹤誤差,提高跟蹤的準確性。
進一步地,在本發(fā)明的一個實施例中,跟蹤模塊300還用于在多個攝像設(shè)備中任意一個攝像設(shè)備檢測到跟蹤目標時,通過投影矩陣將跟蹤目標的位置投影到地面對應(yīng)的坐標系中,并且將所有的點進行聚類分析,以獲取多個攝像設(shè)備中其它攝像設(shè)備中的同一個跟蹤目標。
進一步地,在本發(fā)明的一個實施例中,跟蹤模塊300還用于獲取所有結(jié)果中最優(yōu)的組,最優(yōu)的組為攝像設(shè)備數(shù)目最多且相位位置誤差最小,并且通過最優(yōu)的組確定跟蹤目標的3d坐標,以根據(jù)跟蹤目標的3d坐標去除組中所選的偏差大于第一預(yù)設(shè)值的點,并且在剩余的點中選擇偏差小于第二預(yù)設(shè)值的點,移除集合,直至所有的點選出集合。
進一步地,在本發(fā)明的一個實施例中,本發(fā)明實施例的裝置10還包括:定位模塊。其中,定位模塊用于采用hough投票方法,并且根據(jù)人體多個攝像設(shè)備的位置以及攝像設(shè)備的位姿信息確定行人的位置。
進一步地,在本發(fā)明的一個實施例中,本發(fā)明實施例的裝置10還包括:匹配模塊。其中,匹配模塊用于將跟蹤結(jié)果與行人模型進行匹配,以消除誤匹配、遮擋和漏檢測問題,其中,行人模型包含速度、當前位置、色彩特征、第一次出現(xiàn)時間、軌跡和當前狀態(tài)中的一種或多種參數(shù)。
需要說明的是,前述對基于時空約束的跨鏡頭多目標跟蹤方法實施例的解釋說明也適用于該實施例的基于時空約束的跨鏡頭多目標跟蹤裝置,此處不再贅述。
根據(jù)本發(fā)明實施例提出的基于時空約束的跨鏡頭多目標跟蹤裝置,結(jié)合多個相機的信息,同時考慮攝像機間的幾何信息,以及目標的表觀和時空特征實現(xiàn)更有效的數(shù)據(jù)融合,并且利用hough投票確定行人3d位置,利用攝像機先驗,消除傳統(tǒng)方法基于立足點估計不準確的影響,且直接跟蹤行人的3d位置實現(xiàn)以更有效的人分析,以及引入行人模型,綜合考慮多幀的跟蹤結(jié)果,并且考慮行人空間位置和行走軌跡,實現(xiàn)更加魯棒的多目標跟蹤,其中,通過攝像信息和幾何信息進行多個攝像頭之間的人體特征匹配,實現(xiàn)目標的跟蹤,有效結(jié)合目前的多目標跟蹤算法和多攝像頭處理方法,并且利用攝像設(shè)備網(wǎng)絡(luò)位姿關(guān)系矩陣,從而實現(xiàn)基于多攝像頭的多目標物體跟蹤目的,在提高物體跟蹤的魯棒性的同時,減少跟蹤誤差,提高跟蹤的準確性。
在本發(fā)明的描述中,需要理解的是,術(shù)語“中心”、“縱向”、“橫向”、“長度”、“寬度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底”“內(nèi)”、“外”、“順時針”、“逆時針”、“軸向”、“徑向”、“周向”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。
此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
在本發(fā)明中,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”、“固定”等術(shù)語應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或成一體;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通或兩個元件的相互作用關(guān)系,除非另有明確的限定。對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
在本發(fā)明中,除非另有明確的規(guī)定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接觸,或第一和第二特征通過中間媒介間接接觸。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或僅僅表示第一特征水平高度小于第二特征。
在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結(jié)合和組合。
盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。