專利名稱:一種結(jié)合不同大小視覺詞匯本的圖像分類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于模式識別、計算機視覺、圖像理解技術(shù)領(lǐng)域,具體涉及一種圖像分類方法。
背景技術(shù):
圖像分類的困難在于需要建立一個即能容納類內(nèi)的高度變化,又要能區(qū)分不同類的類模型。“Constellation”模型試圖定位不同的物體局部并確定它們在空間上的關(guān)系。 盡管這些方法可能表示能力強,但是這種空間約束模型無法處理或識別大的變形,比如不在一個平面內(nèi)的旋轉(zhuǎn)和遮擋,也沒有考慮局部數(shù)目不確定的物體,比如建筑物和樹。許多用于圖像分類的流行方法使用獨立塊的集合來表示圖像,這些獨立塊由局部視覺描述子描述,其中最典型的是“bag-of-words”模型。它確定每類中特定的局部比例,而忽略局部間的空間關(guān)系。在檢測到圖像的興趣點(獨立塊)且用描述子描述興趣點(也就是特征表示) 后,必須為訓(xùn)練和測試圖像表示它們的分布。一種流行的表示方法,也稱為圖像量化方法, 是通過對描述后的興趣點集進行聚類得到一個視覺詞匯本。然后圖像表示成視覺單詞標(biāo)簽的直方圖。但是幾乎所有流行的聚類算法都需要用戶輸入簇個數(shù)。為了提供這個參數(shù),用戶必需要有一些圖像的先驗知識或者通過許多的驗證實驗來選擇一個合適的參數(shù)。最近, 許多基于“bag-of-words”模型的方法致力于融合多種特征來得到性能提升。計算機視覺領(lǐng)域中流行的結(jié)合多個特征的趨勢是使用多核學(xué)習(xí)方法(Multiple Kernel Learning, MKL)。 從時間復(fù)雜性角度來說,MKL方法不能并行學(xué)習(xí)多個特征。本發(fā)明試圖將集成學(xué)習(xí)技術(shù)的優(yōu)勢應(yīng)用到圖像分類中,集成學(xué)習(xí)的思想是應(yīng)用多個學(xué)習(xí)器并結(jié)合他們的預(yù)測。圖像分類對于傳統(tǒng)的機器學(xué)習(xí)算法是非常困難的,因為描述圖像的矢量的維度非常高。為了利用來自于不同信息綜合層的線索來分類圖像,不同大小的視覺詞匯本成員用來構(gòu)成視覺詞匯本集體。當(dāng)應(yīng)用基于視覺詞匯本集體上學(xué)習(xí)得到的分類器集體來分類新的圖像時,可以得到性能的提升。而且,從時間復(fù)雜性角度來說,本發(fā)明可以并行學(xué)習(xí)成員視覺詞匯本和相應(yīng)的成員分類器,具有很好的并行性和可縮放性。本項發(fā)明的主要貢獻在于提出了一種結(jié)合不同大小視覺詞匯本的圖像分類方法。 本發(fā)明能有效減少圖像分類的監(jiān)督程度,綜合利用多種有效信息,并行學(xué)習(xí)物體模型,有效提高圖像分類的效率和準(zhǔn)確度。
發(fā)明內(nèi)容
為了解決圖像分類不能有效融合多種信息和由于描述圖像的矢量的高維度,傳統(tǒng)的機器學(xué)習(xí)方法趨向于產(chǎn)生非常不穩(wěn)定且泛化能力差的模型的問題,本發(fā)明提供了一種結(jié)合不同大小視覺詞匯本的圖像分類方法。本發(fā)明將集成學(xué)習(xí)的優(yōu)勢應(yīng)用到圖像分類中,不同綜合層次的特征用來形成視覺詞匯本集體。基于視覺詞匯本集體上,同一副圖像能得到不同的量化矢量。所以,一個分類器集體能在同一訓(xùn)練圖像集的不同表達(dá)矢量集上學(xué)習(xí)得到。既然每個成員利用一種圖像信息,當(dāng)用這個分類器集體來分類新的圖像時,可以得到意想不到的滿意結(jié)果。集成方法通過結(jié)合多個模型的預(yù)測來提高現(xiàn)存算法的性能。與分類器集體相似,使用視覺詞匯本集體來提高視覺詞匯本的質(zhì)量和魯棒性。詞匯本一般是用標(biāo)準(zhǔn)的聚類算法從訓(xùn)練圖像集中學(xué)習(xí)得到,所以使用詞匯本集體也可以達(dá)到提高聚類算法質(zhì)量的目的。視覺詞匯本集體用來表達(dá)不同類型的圖像信息。在構(gòu)建了一個差異性視覺詞匯本集體后,就可以得到高差異性的分類器集體,其中的每個成員分類器分別根據(jù)不同的圖像特征來建立物體模型。所以使用此分類器集體去分類新的圖像時,可以得到更好的、更魯棒的結(jié)果。高差異性的集體對于減少建立一個準(zhǔn)確模型所需要的監(jiān)督程度也非常有效。本發(fā)明直接使用多分辨率信息來量化圖像,并行使用來自于不同綜合層的多種可用線索分類圖像。為了利用不同粒度的信息來分類物體,圖像在基于不同大小的視覺詞匯本上量化,這些不同大小的視覺詞匯本可以捕獲不同粒度的圖像特征。然后基于不同大小的視覺詞匯本,訓(xùn)練圖像集得到不同的量化矢量集,從而可以學(xué)習(xí)到不同的分類器,每種分類器根據(jù)圖像不同粒度的信息得到物體不同的模型,集成這些分類器模型來分類新的圖像,包括以下步驟
步驟I.用興趣點檢測子提取訓(xùn)練圖像的興趣點,然后用描述子描述提取出來的興趣占.
步驟2.隨機選擇一部分描述好的興趣點,在其上運行聚類算法得到一個成員視覺詞匯本,通過設(shè)置不同的簇個數(shù)作為聚類算法的參數(shù),得到具有不同大小的成員視覺詞匯本;
步驟3.基于這個成員視覺詞匯本對訓(xùn)練圖像集進行量化;
步驟4.在量化后的訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)一個分類器;
步驟5.重復(fù)步驟2到步驟4,生成預(yù)設(shè)大小的視覺詞匯本集體和分類器集體;
步驟6.基于一個成員視覺詞匯本,對新圖像進行量化;
步驟7.使用對應(yīng)成員分類器分類新圖像,得到分類結(jié)果;
步驟8.重復(fù)步驟6到步驟7,直到每個成員分類器得到了自己的分類結(jié)果;
步驟9.利用集成技術(shù)集成成員分類器的分類結(jié)果得到最終圖像分類標(biāo)簽。實驗結(jié)果表明本發(fā)明提出的方法能增加魯棒性,因為在高維問題中很難評估分類器的好壞,所以用戶通常不知道選擇哪種方法好,集成方法可以使用許多的模型,然后結(jié)合它們產(chǎn)生穩(wěn)定結(jié)果,集成方法能自動聚焦于最適合所給數(shù)據(jù)的信息。本發(fā)明有益效果是具有在不同領(lǐng)域圖像上的平均性能更好,魯棒性強的優(yōu)點,且模型簡單,非常適用于一般操作者,不需要復(fù)雜參數(shù)的調(diào)整,監(jiān)督程度低,且對訓(xùn)練數(shù)據(jù)的要求低;利用集成學(xué)習(xí)固有的并行性,可以在多個處理器上利用少量訓(xùn)練數(shù)據(jù)并行學(xué)習(xí),所以本發(fā)明的效率也相對較高。
具體實施例方式本發(fā)明優(yōu)選的具體實施例
一個描述子對應(yīng)到與它在歐拉空間中最近的單詞。在形成一個成員詞匯本后,為了量化圖像,所有檢測出來的興趣點都用來建立基于此成員詞匯本上的直方圖。為了使直方圖獨立于描述子個數(shù),直方圖矢量規(guī)范化成總和為I。視覺詞匯本是應(yīng)用聚類算法到200,000個隨機從訓(xùn)練圖像集中選擇來的描述子集合上得到的。加權(quán)LibSVM用來訓(xùn)練分類器。在訓(xùn)練階段,正例樣本的權(quán)值設(shè)為
U pos ne 接 posirii Jiee
權(quán)利要求
1.一種基于視覺詞匯本的圖像分類方法,其特征在于利用多分辨率信息來量化圖像, 來自于不同綜合層的多種可用線索并行用來分類圖像,為了利用不同粒度的信息來分類圖像,圖像在基于不同大小的視覺詞匯本上量化,這些不同大小的視覺詞匯本可以捕獲不同的圖像特征,包括以下步驟(1)用興趣點檢測子提取訓(xùn)練圖像的興趣點,然后用描述子描述提取出來的興趣點;(2)隨機選擇一部分描述好的興趣點,在其上運行聚類算法得到一個成員視覺詞匯本,通過設(shè)置不同的簇個數(shù)作為聚類算法的參數(shù),得到具有不同大小的成員視覺詞匯本;(3)基于這個成員視覺詞匯本對訓(xùn)練圖像集進行量化;(4)在量化后的訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)一個分類器;(5)重復(fù)步驟2到步驟4,生成預(yù)設(shè)大小的視覺詞匯本集體和分類器集體;(6)基于一個成員視覺詞匯本,對新圖像進行量化;(7)使用對應(yīng)成員分類器分類新圖像,得到分類結(jié)果;(8)重復(fù)步驟6到步驟7,直到每個成員分類器得到了自己的分類結(jié)果;(9)利用集成技術(shù)集成成員分類器的分類結(jié)果得到最終圖像分類標(biāo)簽。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于所述成員視覺詞匯本的大小分別設(shè)置成 200,400,800,1200,1300,1500,1600,1700,1900,2000,2200,2600,2800,3000,3600,4000, 4500,和5000,得到一個大小為18的集體。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于為了集成視覺詞匯本集體和相應(yīng)分類器集體分類圖像,直接使用了 SVM決策函數(shù)值的輸出,當(dāng)測試一副新的圖像*時,分類器集體的輸出通過將所有成員分類器的決策函數(shù)值平均得到Dj: CO = If仏C·:),這 里S是集體大小,是第i個成員分類器的輸出值,通過設(shè)置不同的閾值,從而獲得 precision-recall 曲線。
全文摘要
本發(fā)明公開了一種基于視覺詞匯本集體的圖像分類方法,涉及模式識別、計算機視覺、圖像理解技術(shù)領(lǐng)域。本發(fā)明利用多分辨率信息來量化圖像,來自于不同綜合層的多種可用線索并行用來分類圖像。為了利用不同粒度的信息來分類圖像,圖像在基于不同大小的視覺詞匯本上量化,這些不同大小的視覺詞匯本可以捕獲不同的圖像特征。然后基于不同大小的視覺詞匯本,訓(xùn)練圖像集得到不同的量化矢量集,從而可以學(xué)習(xí)到不同的分類器,每種分類器根據(jù)圖像不同粒度的信息得到物體不同的模型,集成這些分類器模型來分類新的圖像時能產(chǎn)生更好的效果。實驗結(jié)果表明本發(fā)明能顯著提高單一大小的視覺詞匯本的性能,具有很強的魯棒性,對不同的圖像都能得到好的分類效果。
文檔編號G06K9/66GK102609731SQ201210007079
公開日2012年7月25日 申請日期2012年1月11日 優(yōu)先權(quán)日2012年1月11日
發(fā)明者廖列法, 羅會蘭, 胡中棟 申請人:江西理工大學(xué)