專利名稱:多模態(tài)性別識別的制作方法
技術領域:
本發(fā)明涉及計算機應用,尤其涉及計算機應用中的性別識別技術。
背景技術:
從在因特網(wǎng)上沖浪到娛樂以及生產(chǎn)性工具,計算機在日常生活中正變得越來越有用。在許多計算機應用中,可基于性別來優(yōu)化用戶與計算機之間的交互。即,計算機可為男性提供與女性不同的體驗。在某些情況下,基于性別的不同體驗用于定制娛樂體驗。例如,在玩某些視頻游戲時,該游戲可包括控制化身的用戶。女性玩家控制女性化身以及男性玩家控制男性化身可能是合乎需要的。在其他情況下,基于性別的不同體驗是出于性能原因。例如,某些計算設備可以是語音控制的。出于許多原因,識別語音命令可能是困難的。一個原因是男性與女性具有不同的語音。知道用戶是男性還是女性可幫助語音命令識別系統(tǒng)通過使用適當?shù)穆晫W模型來識別語音命令。
發(fā)明內(nèi)容
提出了用于基于兩個或多個模態(tài)來自動地識別性別的技術,兩個或多個模態(tài)中的一個是深度圖像數(shù)據(jù)的源。來自每一模態(tài)的貢獻取決于具體環(huán)境中的模態(tài)的可靠性而是不同的且動態(tài)的。使用此處描述的一個或多個方法將自不同模態(tài)的不同數(shù)據(jù)融合在一起,以便達到性別的確定。一個實施例包括接收關于人的深度數(shù)據(jù),接收關于該人的除深度數(shù)據(jù)以外的一個或多個類型的數(shù)據(jù),基于該深度數(shù)據(jù)以及除深度數(shù)據(jù)以外的該一個或多個類型的數(shù)據(jù)來確定該人的性別,以及基于對性別的確定來執(zhí)行動作(例如與該人進行交互)?!獋€實施例包括一個或多個具有在其上存儲有處理器可讀代碼的處理器可讀存儲設備。處理器可讀代碼對一個或多個處理器進行編程。處理器可讀代碼包括提取深度特征的代碼、提取一個或多個其他特征的代碼、基于至少一個深度特征來對性別進行分類的代碼、基于至少一個除深度以外的特征來對性別進行分類的代碼、以及基于輸出來作出關于性別結論的代碼,該輸出來自基于至少一個深度特征來對性別進行分類的代碼和基于至少一個除深度以外的特征來對性別進行分類的代碼。一個實施例包括深度傳感器、不同于深度傳感器的傳感器、用戶接口(例如鍵盤、 鼠標、監(jiān)視器、觸摸屏、話筒、揚聲器等)、以及與該深度傳感器、不同的傳感器和用戶接口通信的處理器。處理器基于來自深度傳感器以及不同的傳感器的數(shù)據(jù)來確定人的性別。處理器基于對性別的確定來改變用戶接口。提供本發(fā)明內(nèi)容以便以簡化形式介紹將在以下的具體實施方式
中進一步描述的一些概念。本發(fā)明內(nèi)容并非旨在標識所要求保護的主題的關鍵特征或必要特征,也不旨在用于幫助確定所要求保護的主題的范圍。此外,所要求保護的主題不限于解決在本發(fā)明的任一部分中提及的任何或所有缺點的實現(xiàn)。
圖IA和IB示出了其中用戶在玩游戲的跟蹤系統(tǒng)的示例實施例。圖2示出可用作跟蹤系統(tǒng)的一部分的捕捉設備的示例實施例。圖3描繪了骨架的示例。圖4示出計算系統(tǒng)的示例實施例。圖5示出計算系統(tǒng)的另一示例實施例。圖6是用于確定性別的軟件組件的框圖。圖7是描述用于獲得數(shù)據(jù)、基于數(shù)據(jù)來確定性別、并且使用對性別的確定來與用戶交互的過程的一個實施例的流程圖。圖8是描述用于自動地確定性別的過程的一個實施例的流程圖。圖9是描述用于訓練的過程的一個實施例的流程圖。圖10是描述用于對性別分類的過程的一個實施例的流程圖。圖11是描述用于融合判定數(shù)據(jù)以確定性別的過程的一個實施例的流程圖。圖12是描述用于融合特征數(shù)據(jù)以確定性別的過程的一個實施例的流程圖。圖13是描述用于融合傳感器數(shù)據(jù)以確定性別的過程的一個實施例的流程圖。圖13A描繪用于模型化對傳感器數(shù)據(jù)的融合的圖。圖14A是描述用于基于對性別的確定來與用戶交互的過程的一個實施例的流程圖。圖14B是描述用于基于對性別的確定來與用戶交互的過程的一個實施例的流程圖。
具體實施例方式提供了用于基于兩個或多個類型的數(shù)據(jù)來自動地確定性別的技術。性別識別對于包括諸如使用適當?shù)幕韥砼c用戶交互或選擇適當?shù)穆晫W模型來識別用戶的語音等的人機交互的許多應用是非常有用的。可從諸如語音、面部、體形以及步態(tài)(步行方式)等多個源來觀察性別信息。來自單個源的性別識別可能是易于出錯的。并且即使對于相同的數(shù)據(jù)源,不同模態(tài)的傳感可揭示不同的性別特征。例如,鼻子結構是用于區(qū)分男性與女性的示例特征,并且可容易地由深度相機觀察,但由來自前方的攝像機觀察是困難的。由此,以下描述的各系統(tǒng)集成來自多個模態(tài)的可用信息,以便產(chǎn)生對用戶性別的準確識別。以下提供了用視頻游戲系統(tǒng)來使用性別識別技術的各示例。視頻游戲系統(tǒng)的使用僅僅是一個可能的實現(xiàn),并且被用作教導該技術的一個示例。然而,此處描述的系統(tǒng)還適用于其他類型的數(shù)據(jù)處理系統(tǒng)和/或其他類型的應用。圖IA和IB示出了其中用戶18在玩拳擊游戲的系統(tǒng)10的示例實施例。在一示例實施例中,系統(tǒng)10可被用于識別、分析和/或跟蹤人類目標(如跟蹤系統(tǒng)10的范圍內(nèi)的用戶18或其他對象),并且與用戶交互。通過知道用戶的性別,可為該用戶定制交互。如圖IA所示,跟蹤系統(tǒng)10可包括計算系統(tǒng)12。計算系統(tǒng)12可以是計算機、游戲系統(tǒng)或控制臺等。根據(jù)一示例實施例,計算系統(tǒng)12可包括硬件組件和/或軟件組件,從而計算系統(tǒng)12可被用于執(zhí)行例如游戲應用、非游戲應用等的應用。一個實施例中,計算系統(tǒng) 12可包括可執(zhí)行存儲在處理器可讀存儲設備上的用于執(zhí)行此處描述的過程的指令的處理器,如標準化處理器、專用處理器、微處理器等。如圖IA所示,跟蹤系統(tǒng)10還可包括捕捉設備20。捕捉設備20可以是,例如可用于在視覺上監(jiān)視諸如用戶18等一個或多個用戶,從而可以捕捉、分析并跟蹤一個或多個用戶所執(zhí)行的姿勢和/或移動,來執(zhí)行應用中的一個或多個控制命令或動作和/或動畫化化身或屏上人物的相機,下面將更詳細地描述。根據(jù)一個實施例,跟蹤系統(tǒng)10可連接至可向諸如用戶18等的用戶提供游戲或應用視覺和/或音頻的視聽設備16,如電視機、監(jiān)視器、高清電視機(HDTV)等。例如,計算系統(tǒng)12可包括諸如圖形卡等視頻適配器和/或諸如聲卡等音頻適配器,這些適配器可提供與游戲應用、非游戲應用等相關聯(lián)的視聽信號。視聽設備16可從計算系統(tǒng)12接收視聽信號, 然后可向用戶18輸出與視聽信號相關聯(lián)的游戲或應用視覺和/或音頻。根據(jù)一個實施例, 視聽設備16可經(jīng)由例如,S-視頻電纜、同軸電纜、HDMI電纜、DVI電纜、VGA電纜、分量視頻電纜等連接至計算系統(tǒng)12。如圖IA和IB所示,跟蹤系統(tǒng)10可用于識別、分析和/或跟蹤諸如用戶18等的人類目標。例如,可使用捕捉設備20來跟蹤用戶18,從而可以捕捉用戶18的姿勢和/或移動來動畫化化身或屏幕上人物,和/或可將用戶18的姿勢和/或移動解釋為可用于影響計算機環(huán)境12所執(zhí)行的應用的控制命令。因此,根據(jù)一實施例,用戶18可移動他的或她的身體來控制應用和/或動畫化化身或屏幕上人物。在圖IA和IB中描繪的示例中,在計算系統(tǒng)12上執(zhí)行的應用可以是用戶18正在玩的拳擊游戲。例如,計算系統(tǒng)12可使用視聽設備16來向用戶18提供拳擊對手22的視覺表示。計算系統(tǒng)12還可使用視聽設備16來提供用戶18可用他的或她的移動來控制的用戶化身M的視覺表示。例如,如圖IB所示,用戶18可在物理空間中揮重拳來使得用戶化身M在游戲空間中揮重拳。因此,根據(jù)一示例實施例,計算系統(tǒng)12和捕捉設備20識別并分析物理空間中用戶18的重拳從而使得該重拳可被解釋為對游戲空間中的用戶化身M 的游戲控制和/或該重拳的運動可用于動畫化游戲空間中的用戶化身對。用戶18的其他移動也可被解釋為其他控制命令或動作,和/或用于動畫化用戶化身,如上下快速擺動、閃避、滑步、封堵、用拳猛擊或揮動各種不同力量的重拳的控制命令。 此外,某些移動可被解釋為可對應于除控制用戶化身M以外的動作的控制命令。例如,在一實施例中,用戶可使用移動來結束、暫停或保存游戲、選擇級別、查看高分、與朋友交流等。根據(jù)另一實施例,用戶可使用移動來從主用戶界面選擇游戲或其他應用。因此,在示例實施例中,用戶18的全范圍運動可以用任何合適的方式來獲得、使用并分析以與應用進行交互。在各示例實施例中,諸如用戶18等的人類目標可具有一物體。在這些實施例中, 電子游戲的用戶可手持物體從而可以使用用戶和物體的運動來調(diào)整和/或控制游戲的參數(shù)。例如,可以跟蹤并利用用戶手持球拍的運動來控制電子運動游戲中的屏幕上球拍。在另一示例實施例中,可以跟蹤并利用用戶手持物體的運動來控制電子格斗游戲中的屏幕上武器。用戶沒有手持的物體也可被跟蹤,如該用戶(或一不同用戶)扔出、推出或滾出的物體或自推進的物體。除拳擊之外,也可實現(xiàn)其他游戲。
6
根據(jù)其他示例實施例,跟蹤系統(tǒng)10還可用于將目標移動解釋為游戲領域之外的操作系統(tǒng)和/或應用控制命令。例如,事實上操作系統(tǒng)和/或應用的任何可控方面可由諸如用戶18等目標的移動來控制。圖2示出可在跟蹤系統(tǒng)10中使用的捕捉設備20的示例實施例。根據(jù)一示例實施例,捕捉設備20可被配置成經(jīng)由任何合適的技術,包括例如飛行時間、結構化光、立體圖像等來捕捉包括深度圖像的帶有深度信息的視頻,該深度信息可包括深度值。根據(jù)一實施例, 捕捉設備20可將深度信息組織為“Z層”,即可與Z軸正交的從深度相機沿著其視線延伸的層。如圖2所示,捕捉設備20可包括相機組件23。根據(jù)一示例實施例,相機組件23可以是可捕捉場景的深度圖像的深度相機。深度圖像可包括所捕捉的場景的二維O-D)像素區(qū)域,其中2-D像素區(qū)域中的每一像素可表示深度值,諸如例如以厘米、毫米等計的所捕捉的場景中的物體距相機的距離。如圖2所示,根據(jù)一示例實施例,圖像相機組件23可包括可用于捕捉場景的深度圖像的紅外(IR)光組件25、三維(3-D)相機沈、和RGB (視覺圖像)相機觀。例如,在飛行時間分析中,捕捉設備20的頂光組件25可以將紅外光發(fā)射到場景上,然后,可以使用傳感器(未示出),用例如3-D相機沈和/或RGB相機28,來檢測從場景中的一個或多個目標和對象的表面反向散射的光。某些實施例中,可使用脈沖式紅外光從而可以測量出射光脈沖和對應的入射光脈沖之間的時間差并將其用于確定從捕捉設備20到場景中目標或對象上的特定位置的物理距離。此外,在其他示例實施例中,可比較出射光波的相位與入射光波的相位以確定相移。然后可以使用相移來確定從捕捉設備到目標或對象上的特定位置的距
1 O根據(jù)另一示例實施例,可使用飛行時間分析,通過經(jīng)由包括例如快門式光脈沖成像的各種技術來分析反射光束隨時間的強度變化以間接地確定從捕捉設備20到目標或對象上特定位置的物理距離。在另一示例實施例中,捕捉設備20可使用結構化光來捕捉深度信息。在這樣的分析中,圖案化光(即,被顯示為諸如網(wǎng)格圖案、條紋圖案等已知圖案或不同圖案的光)可經(jīng)由例如頂光組件M被投影到場景上。在撞擊到場景中一個或多個目標或對象的表面時, 作為響應,圖案可變形。圖案的這種變形可由例如3-D相機沈和/或RGB相機28 (和/或其他傳感器)來捕捉,然后可被分析以確定從捕捉設備到目標或物體上的特定位置的物理距離。在一些實現(xiàn)中,頂光組件25與相機25和沈分開,使得可以使用三角測量來確定距相機25和沈的距離。在一些實現(xiàn)中,捕捉設備20將包括傳感頂光的專用頂傳感器或具有頂過濾器的傳感器。根據(jù)另一實施例,捕捉設備20可包括兩個或更多物理上分開的相機,這些相機可從不同角度查看場景來獲得可被解析以生成深度信息的視覺立體數(shù)據(jù)。其他類型的深度圖像傳感器也可被用來創(chuàng)建深度圖像。捕捉設備20還可包括話筒30。話筒30可包括可接收聲音并將其轉換成電信號的換能器或傳感器。根據(jù)一個實施例,話筒30可用于減少目標識別、分析和跟蹤系統(tǒng)10中的捕捉設備20與計算系統(tǒng)12之間的反饋。另外,話筒30可用于接收也可被提供給計算系統(tǒng) 12的音頻信號。
在一示例實施例中,捕捉設備20還可包括可與圖像相機組件22進行通信的處理器32。處理器32可包括可執(zhí)行指令的標準處理器、專用處理器、微處理器等,這些指令包括用于接收深度圖像、生成適當?shù)臄?shù)據(jù)格式(例如,幀)并將該數(shù)據(jù)傳送到計算系統(tǒng)12的指令。捕捉設備20還可包括存儲器組件34,存儲器組件34可存儲由處理器32執(zhí)行的指令、3-D相機和/或RGB相機所捕捉的圖像或圖像的幀、或任何其他合適的信息、圖像等等。 根據(jù)一示例實施例,存儲器組件34可包括隨機存取存儲器(RAM)、只讀存儲器(ROM)、高速緩存、閃存、硬盤、或任何其他合適的存儲組件。如圖2所示,在一個實施例中,存儲器組件 34可以是與圖像捕捉組件22和處理器32進行通信的單獨的組件。根據(jù)另一實施例,存儲器組件34可被集成到處理器32和/或圖像捕捉組件22中。如圖2所示,捕捉設備20可經(jīng)由通信鏈路36與計算系統(tǒng)12進行通信。通信鏈路36可以是包括例如USB連接、火線連接、以太網(wǎng)電纜連接等的有線連接和/或例如無線 802. lib,802. llg、802. Ila或802. Iln連接等的無線連接。根據(jù)一個實施例,計算系統(tǒng)12 可經(jīng)由通信鏈路36向捕捉設備20提供可用于確定例如何時捕捉場景的時鐘。另外,捕捉設備20將由例如3-D相機沈和/或RGB相機觀捕捉的深度信息和視覺(例如,RGB)圖像經(jīng)由通信鏈路36提供給計算系統(tǒng)12。在一個實施例中,深度圖像和視覺圖像以每秒30 幀的速率傳送。計算系統(tǒng)12然后可使用該模型、深度信息、以及所捕捉的圖像來例如控制諸如游戲或文字處理程序等的應用和/或動畫化化身或屏上人物。計算系統(tǒng)12包括深度圖像處理和骨架跟蹤模塊50,該模塊使用深度圖像來跟蹤可由深度相機檢測的一個或多個人。深度圖像處理和骨架跟蹤模塊50向應用52提供跟蹤信息,該應用可以是視頻游戲、生產(chǎn)性應用、通信應用或其他軟件應用等。音頻數(shù)據(jù)和視覺圖像數(shù)據(jù)也被提供給應用52和深度圖像處理和骨架跟蹤模塊50。應用52將跟蹤信息、音頻數(shù)據(jù)和視覺圖像數(shù)據(jù)提供給識別器引擎M。在另一實施例中,識別器引擎M從深度圖像處理和骨架跟蹤模塊50直接接收跟蹤信息,并從捕捉設備20直接接收音頻數(shù)據(jù)和視覺圖像數(shù)據(jù)。識別器引擎討與過濾器60、62、64、……、66的集合相關聯(lián),每一過濾器包括關于可由捕捉設備20檢測的任何人或對象執(zhí)行的姿勢、動作或狀況的信息。例如,來自捕捉設備20的數(shù)據(jù)可由過濾器60、62、64、……、66來處理,以便標識一個用戶或一組用戶何時執(zhí)行了一個或多個姿勢或其他動作。那些姿勢可與應用52的各種控制、對象或狀況相關聯(lián)。 由此,計算環(huán)境12可借助過濾器使用識別器引擎M來解釋移動。計算系統(tǒng)12還包括性別識別器軟件70,該性別識別器軟件70從捕捉設備20接收視覺圖像數(shù)據(jù)、深度圖像數(shù)據(jù)以及音頻數(shù)據(jù)。響應于并且基于所接收的數(shù)據(jù),性別識別器 70自動地確定站在捕捉設備20前方(或附近)的人的性別,并且向應用52報告對性別的確定。作為響應,應用52將按為所確定的性別定制的方式來與捕捉設備20前方(或附近) 的人/用戶進行交互。圖2的捕捉設備20向計算系統(tǒng)12提供RGB圖像(或其他格式或色彩空間的視覺圖像)和深度圖像。深度圖像可以是多個觀測到的像素,其中每個觀測到的像素具有觀測到的深度值。例如,深度圖像可包括所捕捉的場景的二維O-D)像素區(qū)域,其中2-D像素區(qū)域中的每一像素可具有深度值,如所捕捉的場景中的對象距捕捉設備的距離。
系統(tǒng)將使用RGB圖像和深度圖像來跟蹤用戶的移動。例如,系統(tǒng)將使用深度圖像來跟蹤人的骨架??梢允褂迷S多方法來通過使用深度圖像跟蹤人的骨架。使用深度圖像來跟蹤骨架的一個合適的示例在2009年10月21日提交的美國專利申請12/603,437 "Pose Tracking Pipeline (姿勢跟蹤流水線)”(以下稱為’ 437申請)中提供,該申請通過整體引用合并于此?!?37申請的過程包括獲取深度圖像,對數(shù)據(jù)進行降采樣,移除和/或平滑高變度噪聲數(shù)據(jù),標識并移除背景,以及將前景像素中的每一個分配給身體的不同部位?;谶@些步驟,系統(tǒng)將使一模型擬合到該數(shù)據(jù)并創(chuàng)建骨架。該骨架將包括一組關節(jié)和這些關節(jié)之間的連接。圖 3 示出了具有 15 個關節(jié)(j0、jl、j2、j3、j4、j5、j6、j7、j8、j9、jlO、jll、 jl2、jl3和jl4)的示例骨架。這些關節(jié)中的每一個表示骨架中該骨架可以在x、y、z方向上樞轉的位置或身體上關注的位置。也可使用用于跟蹤的其他方法。合適的跟蹤技術也在以下四個美國專利申請中公開,所有這些申請通過整體引用結合于此2009年5月四日提交的美國專利申請 12/475,308 "Device for Identifying and Tracking Multiple Humans Over Time (用于隨時間標識并跟蹤多個人的設備)”;2010年1月四日提交的美國專利申請 12/696, 282 "Visual Based Identity Tracking (基于視覺的身份跟蹤)” ;2OO9 年 I2 月 18 日提交的美國專利申請 12/641,788‘‘Motion Detection Using Depth Images(使用深度圖像的運動檢測)”;以及2009年10月7日提交的美國專利申請12/575,388 "Human Tracking System (人類跟蹤系統(tǒng)),,。(圖2所示的計算系統(tǒng)12的)識別器引擎討包括多個過濾器60、62、64、……、 66來標識姿勢或動作。過濾器包括定義姿勢、動作或狀況以及該姿勢、動作或狀況的參數(shù)或元數(shù)據(jù)的信息。例如,包括一只手從身體背后到身體前方的運動的投擲可被實現(xiàn)為包括表示用戶的一只手從身體背后到身體前方的運動的信息的姿勢,該移動將由深度相機來捕捉。然后可為該姿勢設定參數(shù)。在姿勢是投擲的情況下,參數(shù)可以是該手必須達到的閾值速度、該手必須行進的距離(絕對的,或相對于用戶的整體大小)、以及識別器引擎對發(fā)生了該姿勢的置信評級。用于姿勢的這些參數(shù)可以隨著時間在各應用之間、在單個應用的各上下文之間、或在一個應用的一個上下文內(nèi)變化。過濾器可以是模塊化的或是可互換的。在一個實施例中,過濾器具有多個輸入 (這些輸入中的每一個具有一類型)以及多個輸出(這些輸出中的每一個具有一類型)。第一過濾器可用具有與第一過濾器相同數(shù)量和類型的輸入和輸出的第二過濾器來替換而不更改識別器引擎體系結構的任何其他方面。例如,可以有用于駕駛的第一過濾器,該第一過濾器取骨架數(shù)據(jù)作為輸入并輸出與該過濾器相關聯(lián)的姿勢正在發(fā)生的置信度以及轉向角。 在希望用第二駕駛過濾器來替換該第一駕駛過濾器的情況下一一這可能是因為第二駕駛過濾器更高效且需要更少的處理資源——則可以通過簡單地用第二過濾器替換第一過濾器來這樣做,只要第二過濾器具有相同的輸入和輸出一骨架數(shù)據(jù)類型的一個輸入,以及置信度類型和角度類型的兩個輸出。過濾器不需要具有參數(shù)。例如,返回用戶的高度的“用戶高度”過濾器可能不允許任何可調(diào)節(jié)的參數(shù)。替換的“用戶高度”過濾器可具有可調(diào)節(jié)參數(shù),如在確定用戶的高度時是否考慮用戶的鞋、發(fā)型、頭飾以及體態(tài)。對過濾器的輸入可包括諸如關于用戶的關節(jié)位置的關節(jié)數(shù)據(jù)、在關節(jié)處相交的骨所形成的角度、來自場景的RGB色彩數(shù)據(jù)、以及用戶的某一方面的變化速率等內(nèi)容。來自過濾器的輸出可包括諸如正作出給定姿勢的置信度、作出姿勢運動的速度、以及作出姿勢運動的時間等內(nèi)容。識別器引擎M可具有向過濾器提供功能的基本識別器引擎。在一實施例中,識別器引擎M實現(xiàn)的功能包括跟蹤所識別的姿勢和其他輸入的隨時間輸入 (input-over-time)存檔、隱馬爾可夫模型實現(xiàn)(其中模型化系統(tǒng)被假定為馬爾可夫過程一其中當前狀態(tài)封裝了確定將來狀態(tài)所需的任何過去狀態(tài)信息,因此不必為此目的而維護任何其他過去狀態(tài)信息的過程一該過程具有未知參數(shù),并且隱藏參數(shù)是從可觀察數(shù)據(jù)來確定的)、以及求解姿勢識別的特定實例所需的其他功能。過濾器60、62、64、……、66在識別器引擎M之上加載并實現(xiàn),并且可利用識別器引擎M提供給所有過濾器60、62、64、……、66的服務。在一個實施例中,識別器引擎54 接收數(shù)據(jù)來確定該數(shù)據(jù)是否滿足任何過濾器60、62、64、……、66的要求。由于這些所提供的諸如解析輸入等服務是由識別器引擎討一次性提供而非由每一過濾器60、62、64、……、 66提供的,因此這一服務在一段時間內(nèi)只需被處理一次而不是在該時間段對每一過濾器處理一次,因此減少了確定姿勢所需的處理。應用52可使用識別器引擎M所提供的過濾器60、62、64、……、66,或者它可提供其自己的、插入到識別器引擎M中的過濾器。在一實施例中,所有過濾器具有啟用該插入特性的通用接口。此外,所有過濾器可利用參數(shù),因此可使用以下單個姿勢工具來診斷并調(diào)節(jié)整個過濾器系統(tǒng)。關于識別器引擎M的更多信息可在2009年4月13日提交的美國專利申請 12/422,661 “Gesture Recognizer System Architecture (姿勢識別器系統(tǒng)架構)”中找到,該申請通過整體引用合并于此。關于識別姿勢的更多信息可在2009年2月23日提交的美國專利申請12/391,150 "Standard Gestures (標準姿勢)”;以及2009年5月四日提交的美國專利申請12/474,655 "Gesture Tool (姿勢工具)”中找到,這兩個申請都通過整體引用結合于此。圖4示出了計算系統(tǒng)的一示例實施例,該計算系統(tǒng)可以是圖1A-2所示的用于實現(xiàn)跟蹤應用所顯示的化身或其他屏幕上對象的運動和/或動畫化(或以其他方式更新)化身或其他屏幕上對象的計算系統(tǒng)12。諸如上面參考圖1A-2所描述的計算系統(tǒng)12等的計算系統(tǒng)可以是諸如游戲控制臺等的多媒體控制臺100。如圖4所示,多媒體控制臺100具有含有一級高速緩存102、二級高速緩存104和閃存R0M(只讀存儲器)106的中央處理單元 (CPU) 101。一級高速緩存102和二級高速緩存104臨時存儲數(shù)據(jù)并因此減少存儲器訪問周期數(shù),由此改進處理速度和吞吐量。CPU 101可被提供為具有一個以上的核,以及由此的附加的一級和二級高速緩存102和104。閃存ROM 106可存儲在多媒體控制臺100通電時在引導過程的初始化階段加載的可執(zhí)行代碼。圖形處理單元(GPU) 108和視頻編碼器/視頻編解碼器(編碼器/解碼器)114形成用于高速、高分辨率圖形處理的視頻處理流水線。經(jīng)由總線從圖形處理單元108向視頻編碼器/視頻編解碼器114運送數(shù)據(jù)。視頻處理流水線向A/V(音頻/視頻)端口 140輸出數(shù)據(jù),用于傳輸至電視或其他顯示器。存儲器控制器110被連接至GPU 108以方便處理器訪問各種類型的存儲器112,例如但不局限于RAM(隨機存取存儲器)。多媒體控制臺100包括較佳地在模塊118上實現(xiàn)的1/0控制器120、系統(tǒng)管理控制器122、音頻處理單元123、網(wǎng)絡接口控制器124、第一 USB主控制器126、第二 USB控制器 1 和前面板I/O子部件130。USB控制器126和1 用作外設控制器142 (1)-142 (2)、無線適配器148、和外置存儲器設備146(例如閃存、外置⑶/DVD ROM驅動器、可移動介質等) 的主機。網(wǎng)絡接口和/或無線適配器148提供對網(wǎng)絡(例如,因特網(wǎng)、家庭網(wǎng)絡等)的訪問并且可以是包括以太網(wǎng)卡、調(diào)制解調(diào)器、藍牙模塊、電纜調(diào)制解調(diào)器等的各種不同的有線和無線適配器組件中的任何一種。提供系統(tǒng)存儲器143來存儲在引導過程期間加載的應用數(shù)據(jù)。提供媒體驅動器 144且其可包括DVD/⑶驅動器、藍光驅動器、硬盤驅動器、或其它可移動媒體驅動器等。媒體驅動器144可以是多媒體控制臺100內(nèi)部或外部的。應用數(shù)據(jù)可經(jīng)由媒體驅動器144訪問,以由多媒體控制臺100執(zhí)行、回放等。介質驅動器144經(jīng)由例如串行ATA總線或其他高速連接(例如IEEE 1394)等總線連接至I/O控制器120。系統(tǒng)管理控制器122提供涉及確保多媒體控制臺100的可用性的各種服務功能。 音頻處理單元123和音頻編解碼器132形成具有高保真度和立體聲處理的對應的音頻處理流水線。音頻數(shù)據(jù)經(jīng)由通信鏈路在音頻處理單元123與音頻編解碼器132之間傳輸。音頻處理流水線將數(shù)據(jù)輸出到A/V端口 140以供外部音頻用戶或具有音頻能力的設備再現(xiàn)。前面板I/O子部件130支持暴露在多媒體控制臺100的外表面上的電源按鈕150 和彈出按鈕152以及任何LED(發(fā)光二極管)或其它指示器的功能。系統(tǒng)供電模塊136向多媒體控制臺100的組件供電。風扇138冷卻多媒體控制臺100內(nèi)的電路。CPU 101、GPU 108、存儲器控制器110、和多媒體控制臺100內(nèi)的各個其它組件經(jīng)由一條或多條總線互連,包括串行和并行總線、存儲器總線、外圍總線、和使用各種總線架構中任一種的處理器或局部總線。作為示例,這些架構可以包括外圍部件互連(PCI)總線、 PCI-Express 總線等。當多媒體控制臺100通電時,應用數(shù)據(jù)可從系統(tǒng)存儲器143加載到存儲器112和/ 或高速緩存102、104中并在CPU 101上執(zhí)行。應用程序可呈現(xiàn)在導航到多媒體控制臺100 上可用的不同媒體類型時提供一致的用戶體驗的圖形用戶界面。在操作中,介質驅動器144 中包含的應用和/或其它媒體可從介質驅動器144啟動或播放,以向多媒體控制臺100提供附加功能。多媒體控制臺100可通過將該系統(tǒng)簡單地連接至電視或其它顯示器而作為獨立系統(tǒng)來操作。在該獨立模式中,多媒體控制臺100允許一個或多個用戶與該系統(tǒng)交互、看電影、或聽音樂。然而,隨著通過網(wǎng)絡接口 1 或無線適配器148可用的寬帶連接的集成,多媒體控制臺100還可作為較大網(wǎng)絡社區(qū)中的參與者來操作。當多媒體控制臺100通電時,可以保留設定量的硬件資源以供多媒體控制臺操作系統(tǒng)作系統(tǒng)使用。這些資源可包括預留存儲器(例如,16MB)、CPU和GPU周期(例如,5% )、 網(wǎng)絡帶寬(例如,SlAs)等等。因為這些資源是在系統(tǒng)引導時保留的,所以所保留的資源從應用的角度而言是不存在的。具體地,存儲器保留較佳地足夠大,以包含啟動內(nèi)核、并發(fā)系統(tǒng)應用程序和驅動程序。CPU保留較佳地為恒定,使得若所保留的CPU用量不被系統(tǒng)應用使用,則空閑線程將消耗任何未使用的周期。對于GPU保留,通過使用GPU中斷來顯示由系統(tǒng)應用生成的輕量消息(例如,彈出窗口),以調(diào)度代碼來將彈出窗口呈現(xiàn)為覆蓋圖。覆蓋圖所需的存儲器量取決于覆蓋區(qū)域大小,并且覆蓋圖較佳地與屏幕分辨率成比例縮放。在并發(fā)系統(tǒng)應用使用完整用戶界面的情況下,優(yōu)選使用獨立于應用分辨率的分辨率。定標器可用于設置該分辨率,從而無需改變頻率,也就不會引起TV重新同步。在多媒體控制臺100引導且系統(tǒng)資源被保留之后,就執(zhí)行并發(fā)系統(tǒng)應用來提供系統(tǒng)功能。系統(tǒng)功能被封裝在一組在上述所保留的系統(tǒng)資源中執(zhí)行的系統(tǒng)應用中。操作系統(tǒng)內(nèi)核標識是系統(tǒng)應用的線程而非游戲應用的線程。系統(tǒng)應用優(yōu)選地被調(diào)度為在預定時間并以預定時間間隔在CPU 101上運行,以便為應用提供一致的系統(tǒng)資源視圖。調(diào)度是為了把由在控制臺上運行的游戲應用所引起的高速緩存分裂最小化。當并發(fā)系統(tǒng)應用需要音頻時,則由于時間敏感性而異步調(diào)度音頻處理給游戲應用。多媒體控制臺應用管理器(如下所述)在系統(tǒng)應用活動時控制游戲應用的音頻水平 (例如,靜音、衰減)。輸入設備(例如,控制器142(1)和142( )由游戲應用和系統(tǒng)應用共享。輸入設備不是所保留的資源,但卻在系統(tǒng)應用和游戲應用之間切換以使其各自具有設備的焦點。 應用管理器較佳地控制輸入流的切換,而無需知曉游戲應用的知識,并且驅動程序維持有關焦點切換的狀態(tài)信息。相機26J8和捕捉設備20可經(jīng)由USB控制器1 或其他接口來定義控制臺100的附加輸入設備。圖5示出了計算系統(tǒng)220的另一示例實施例,該計算系統(tǒng)可用于實現(xiàn)圖1A-2所示的用于跟蹤應用所顯示的化身或其他屏幕上對象的運動和/或動畫化(或以其他方式更新)化身或其他屏幕上對象的計算系統(tǒng)12。計算系統(tǒng)環(huán)境220只是合適的計算系統(tǒng)的一個示例,并且不旨在對所公開的主題的使用范圍或功能提出任何限制。也不應該將計算系統(tǒng)220解釋為對示例性操作系統(tǒng)220中示出的任一組件或其組合有任何依賴性或要求。某些實施例中,所描繪的各種計算元素可包括被配置成實例化本公開的各具體方面的電路。 例如,本公開中使用的術語電路可包括被配置成通過固件或開關來執(zhí)行功能的專用硬件組件。其他示例中,術語電路可包括由實施可用于執(zhí)行功能的邏輯的軟件指令配置的通用處理單元、存儲器等。在其中電路包括硬件和軟件的組合的示例實施例中,實施者可以編寫體現(xiàn)邏輯的源代碼,且源代碼可以被編譯為可以由通用處理單元處理的機器可讀代碼。因為本領域技術人員可以明白現(xiàn)有技術已經(jīng)進化到硬件、軟件或硬件/軟件組合之間幾乎沒有差別的地步,因而選擇硬件或是軟件來實現(xiàn)具體功能是留給實現(xiàn)者的設計選擇。更具體地, 本領域技術人員可以明白軟件進程可被變換成等價的硬件結構,而硬件結構本身可被變換成等價的軟件進程。因此,對于硬件實現(xiàn)還是軟件實現(xiàn)的選擇是設計選擇并留給實現(xiàn)者。計算系統(tǒng)220包括計算機Ml,計算機241通常包括各種計算機可讀介質。計算機可讀介質可以是能由計算機241訪問的任何可用介質,而且包含易失性和非易失性介質、 可移動和不可移動介質。系統(tǒng)存儲器222包括易失性和/或非易失性存儲器形式的計算機存儲介質,如只讀存儲器(ROM) 223和隨機存取存儲器(RAM) 2600基本輸入/輸出系統(tǒng) 224 (BIOS)包括如在啟動時幫助在計算機Ml內(nèi)的元件之間傳輸信息的基本例程,它通常儲存在ROM 223中。RAM 260通常包含處理單元259可以立即訪問和/或目前正在操作的數(shù)據(jù)和/或程序模塊。作為示例而非限制,圖5示出了操作系統(tǒng)225、應用程序226,其他程序模塊227和程序數(shù)據(jù)228。
計算機241還可以包括其他可移動/不可移動、易失性/非易失性計算機存儲介質。僅作為示例,圖5示出了對不可移動、非易失性磁介質進行讀寫的硬盤驅動器238,對可移動、非易失性磁盤2M進行讀寫的磁盤驅動器239,以及對例如CD ROM或其它光學介質等可移動、非易失性光盤253進行讀寫的光盤驅動器M0??梢栽谑纠圆僮鳝h(huán)境中使用的其他可移動/不可移動、易失性/非易失性計算機存儲介質包括但不限于,磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅動器238通常由例如接口 234等不可移動存儲器接口連接至系統(tǒng)總線221,磁盤驅動器239和光盤驅動器240通常由例如接口 235等可移動存儲器接口連接至系統(tǒng)總線221。GPU 299通過圖形接口 231連接至系統(tǒng)總線221。視頻存儲器230(它連接至GPU 229)通過視頻接口 232連接至系統(tǒng)總線 221。上文所討論的并且在圖5中所示出的驅動器以及它們的相關聯(lián)的計算機存儲介質,為計算機Ml提供了計算機可讀的指令、數(shù)據(jù)結構、程序模塊及其他數(shù)據(jù)的存儲。例如, 圖5中,硬盤驅動器238被示為存儲操作系統(tǒng)258、應用程序257、其它程序模塊256和程序數(shù)據(jù)255。注意,這些組件可以與操作系統(tǒng)225、應用程序226、其他程序模塊227和程序數(shù)據(jù)2 相同,也可以與它們不同。此處給操作系統(tǒng)258、應用程序257、其他程序模塊256以及程序數(shù)據(jù)255提供了不同的編號,以說明至少它們是不同的副本。用戶可以通過輸入設備,例如鍵盤251和定點設備252——通常被稱為鼠標、跟蹤球或觸摸墊——向計算機241 輸入命令和信息。其他輸入設備(未示出)可以包括話筒、操縱桿、游戲手柄、圓盤式衛(wèi)星天線、掃描儀等等。這些和其他輸入設備通常通過耦合至系統(tǒng)總線的用戶輸入接口 236連接至處理單元259,但也可以由其他接口和總線結構,例如并行端口、游戲端口或通用串行總線(USB)來連接。相機沈、觀和捕捉設備20可經(jīng)由用戶輸入接口 236來定義控制臺100 的附加輸入設備。監(jiān)視器242或其他類型的顯示設備也通過接口,例如視頻接口 232,連接至系統(tǒng)總線221。除監(jiān)視器以外,計算機也可以包括其它外圍輸出設備,例如揚聲器244和打印機對3,它們可以通過輸出外圍接口 233連接。捕捉設備20可經(jīng)由輸出外圍接口 233、 網(wǎng)絡接口 237或其他接口連接至計算系統(tǒng)220。計算機241可使用至一個或多個遠程計算機,例如遠程計算機246的邏輯連接在聯(lián)網(wǎng)環(huán)境中操作。遠程計算機246可以是個人計算機、服務器、路由器、網(wǎng)絡PC、對等設備或其他公共網(wǎng)絡節(jié)點,通常包括上文參考計算機Ml所描述的許多或全部元件,雖然圖5中只示出了存儲器存儲設備對7。圖中所示邏輯連接包括局域網(wǎng)(LAN) 245和廣域網(wǎng)(WAN049, 但也可以包括其它網(wǎng)絡。這樣的聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍計算機網(wǎng)絡、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見的。當在LAN聯(lián)網(wǎng)環(huán)境中使用時,計算機241通過網(wǎng)絡接口或適配器237連接至LAN 2450當在WAN聯(lián)網(wǎng)環(huán)境中使用時,計算機241通常包括調(diào)制解調(diào)器250或用于通過例如因特網(wǎng)等WAN 249建立通信的其他手段。調(diào)制解調(diào)器250可以是內(nèi)置或外置的,它可以經(jīng)由用戶輸入接口 236或其他適當?shù)臋C制連接至系統(tǒng)總線221。在聯(lián)網(wǎng)環(huán)境中,相對于計算機 241所描述的程序模塊或其部分可被存儲在遠程存儲器存儲設備中。作為示例而非局限, 圖5示出應用程序248駐留在存儲器設備247上。可以理解的是,所示的網(wǎng)絡連接是示例性的,并且可以使用在計算機之間建立通信鏈路的其他手段。圖4或5的系統(tǒng)中的任一個或不同計算系統(tǒng)可用于實現(xiàn)圖2的計算系統(tǒng)12。如上所述,計算系統(tǒng)12確定用戶的運動,并采用這些檢測到的運動來控制視頻游戲或其他應用。例如,用戶的運動可用于控制視頻游戲中的化身和/或對象?;趯τ脩舻男詣e的知曉,計算設備可調(diào)整用戶體驗。圖6是描繪性別識別器軟件70(見圖2)的細節(jié)的框圖。圖6描繪了音頻特征提取模塊302、圖像特征提取模塊304、深度特征提取模塊306以及模態(tài)可靠性估計器308,所有這些將接收來自傳感器的數(shù)據(jù)。例如,向音頻特征提取模塊302和模態(tài)可靠性估計器308 提供音頻數(shù)據(jù)。向圖像特征提取模塊304和模態(tài)可靠性估計器308提供來自相機傳感器的視覺圖像數(shù)據(jù)。向深度特征提取模塊306和模態(tài)可靠性估計器308提供來自深度相機的深度數(shù)據(jù)。如以下討論的,模態(tài)可靠性估計器308將確定來自傳感器的輸入數(shù)據(jù)有多可靠, 并且分配將被用作權重的可靠性值。可靠性估計可基于數(shù)據(jù)質量。例如,深度數(shù)據(jù)中可具有噪聲。取決于噪聲量,模態(tài)可靠性估計器308將分配要被用作權重的可靠性值。視覺圖像可包括噪聲。另外地,模態(tài)可靠性估計器308可基于圖像中對象的光照、曝光、焦點或成幀(framing)來判斷視覺圖像的可靠性。模態(tài)可靠性估計器308可基于音頻信號中的噪聲以及音量來判斷音頻數(shù)據(jù)的可靠性。還可使用其他因素來確定可靠性。音頻特征提取模塊302接收來自話筒的音頻數(shù)據(jù),并且標識音頻信號中的各種特征。將向一個或多個分類器提供與音頻特征提取302所提取的特征相關聯(lián)的特定音頻數(shù)據(jù)。圖6示出了兩個示例分類器性別分類器一MFCC 310以及性別分類器一音調(diào)312。在聲音處理中,梅爾頻率倒譜(MFC)是基于非線性梅爾頻率刻度的對數(shù)功率譜的線性余弦變換、對聲音的短期功率譜的表示。梅爾頻率倒譜系數(shù)(MFCC)是共同構成梅爾頻率倒譜的系數(shù)。梅爾頻率倒譜系數(shù)從音頻剪輯的一種類型的倒譜表示中得到。通常通過取信號的窗口化摘錄的傅立葉變換、使用三角形重疊窗口將所獲得的頻譜的冪映射到梅爾刻度、取各梅爾頻率中的冪的對數(shù)、以及取對數(shù)冪列表(如同它是信號一樣)的離散余弦變換,來導出梅爾頻率倒譜系數(shù)。梅爾頻率倒譜系數(shù)是結果頻譜的幅度。可存在這一過程的變體。例如, 用于映射該刻度的窗口的形狀或間隔中的差異可以變化。MFCC通常被用作語音識別系統(tǒng)中用于從人們的語音中識別他們并且識別說話的人的性別的特征。MFCC的數(shù)據(jù)可由音頻特征提取模塊302來提取,并且提供給性別分類器一MFCC 310。響應于該數(shù)據(jù),性別分類器 MFCC 310將對說話者是男性還是女性進行分類。音頻特征提取模塊302還將標識說話者的音調(diào)?;蛘撸纛l特征提取302可標識可被用于確定音調(diào)的數(shù)據(jù)。該信息被提供給性別分類器一音調(diào)312。響應于來自音頻特征提取302的數(shù)據(jù),性別分類器一音調(diào)312將對說話者是男性還是女性進行分類??梢岳斫猓?女性的音調(diào)比男性更高。圖像特征提取模塊304從圖像中提取各種特征,并且將這些特征的數(shù)據(jù)提供給性別分類器一Gabor 314以及性別分類器一LBP 316。也可以使用附加的和/或不同的分類器。Gabor過濾器是在用于邊緣檢測的圖像處理中使用的線性過濾器。Gabor過濾器的頻率和定向表示與人類視覺系統(tǒng)的那些相似,并且可發(fā)現(xiàn)它尤其適用于紋理表示和辨別。在空間域,二維Gabor過濾器是通過正弦波來調(diào)制的高斯核內(nèi)部函數(shù)。Gabor過濾器是自相似的——所有過濾器可通過膨脹和旋轉從一個母小波(mother wavelet)中生成。將Gabor 過濾器的結果提供給性別分類器一Gabor 314。在此情況下,Gabor過濾器可被用于找出形狀,并且性別分類器一Gabor 314將基于Gabor過濾器來對該對象是男性還是女性作出分類。局部二元圖(LBP)是用于計算機視覺中的分類的一種類型的過濾器,并且已發(fā)現(xiàn)其對于對圖像中的紋理進行分類尤其有用?;谶\行局部二元圖過濾器,結果數(shù)據(jù)將被提供給性別分類器一LBP 316,以便對于該對象是男性還是女性作出分類。在一個實施例中, LBP數(shù)據(jù)可被用于基于圖像中的形狀或紋理來對該對象是否為特定性別作出二元判定(是 /否)或概率判定(O與1之間)。深度特征提取模塊306從深度圖像數(shù)據(jù)中提取各種特征,并且將其提供給一組分類器中的任一個。例如,圖6示出了四個分類器性別分類器一形狀318、性別分類器一變化 320、性別分類器一曲率322以及性別分類器一步行324。也可以使用附加的和/或不同的性別分類器。深度特征提取模塊306提取指示一個人的一部分的形狀的數(shù)據(jù),并且將該數(shù)據(jù)提供給性別分類器一形狀318。例如,男性與女性具有不同形狀的鼻子。性別分類器一形狀318可基于鼻子的形狀將對象分類成男性或女性。深度特征提取模塊306還可提供關于對象身體表面的變化的數(shù)據(jù)。例如,男性面部往往具有更陡峭的改變,而女性面部往往具有更逐漸的改變。性別分類器一變化320基于以上關于深度中的變化的數(shù)據(jù)來對該對象是男性還是女性作出分類。深度特征提取模塊306標識關于該對象的表面的曲率的數(shù)據(jù),并且將該數(shù)據(jù)提供給性別分類器一曲率322。曲率數(shù)據(jù)可指示表面改變的微分值、以及那些表面改變怎樣擬合特定形狀的曲線。使用該信息,性別分類器一曲率322可對于該對象是男性還是女性作出分類。深度特征提取模塊306可標識指示對象正如何步行(也被稱為步態(tài)) 的信息。例如,使用以上描述的用于不同地跟蹤男性和女性步行的技術?;趯ο蟛叫械母櫍詣e分類器一步行3M可對于該對象是男性還是女性作出分類。如以上討論的,性別分類器310、312、314、316、318、320、322和3 將對于該對象是男性還是女性作出分類。在一個實施例中,每一分類可作出其自己的分類,并且將該分類發(fā)送給概率聚集模塊330。在一個實施例中,對于該對象是男性還是女性的分類包括二元判定。在另一實施例中,對于該對象是男性還是女性的分類包括計算該對象為男性的概率以及計算該對象為女性的概率。模態(tài)可靠性估計器308將每一類型的數(shù)據(jù)的可靠性測量(例如權重)發(fā)送給概率聚集模塊330。例如,可發(fā)送對于音頻數(shù)據(jù)的權重,可發(fā)送對于視覺圖像數(shù)據(jù)的另一權重,并且可發(fā)送對于深度圖像數(shù)據(jù)的另一權重。在此示例中,分類器318、320、322和3M將共享第一權重、分類器314和346將共享第二權重,以及分類器310和312將共享第三權重。在另一實施例中,模態(tài)可靠性估計器308將為每一分類器確定不同的權重。概率聚集模塊330將基于所接收的各分類和權重來作出性別的最終判定。在一個實施例中,概率聚集模塊330將由分類器310-3M報告的各概率中的每一個乘以分類器的相關聯(lián)的權重,以便創(chuàng)建一組乘積(每一乘積為概率乘以權重)。隨后,男性的所有乘積將被合計,并且女性的所有乘積將被合計。概率聚集模塊330將確定男性的總和是否大于女性的總和。如果是,則概率聚集模塊330將作出該對象是男性的最終確定。如果女性的總和大于男性的總和,則概率聚集模塊330將作出該對象是女性的最終確定。也可使用用于對性別作出最終確定的其他實施例。例如,概率聚集模塊330可選擇與最高權重相關聯(lián)的男性或女性的分類。在另一實施例中,可使用其他數(shù)學函數(shù)將各種分類(及其概率)與權重組合。在另一實施例中,每一分類器可報告二元判定(例如男性或女性),并且概率聚集模塊330將選擇具有最多投票的性別。圖7是描述使用深度圖像數(shù)據(jù)、視覺圖像數(shù)據(jù)以及音頻數(shù)據(jù)來確定性別并使用對性別的確定來與一個或多個用戶進行交互的過程的一個實施例的流程圖。圖7的過程可使用圖6的軟件模塊或軟件模塊的其他實施例。在圖7的步驟402,該系統(tǒng)將傳感深度圖像數(shù)據(jù)。例如,圖2的捕捉設備20將傳感深度圖像,并且在步驟404該深度圖像數(shù)據(jù)將被發(fā)送給計算設備。在步驟406,該系統(tǒng)將傳感視覺圖像數(shù)據(jù)。例如,捕捉設備20將傳感視覺圖像,并且在步驟408將該視覺圖像發(fā)送給計算設備。代替或除了視覺圖像以外,該系統(tǒng)還傳感并使用紅外以及熱圖像。在步驟410,該系統(tǒng)將傳感音頻數(shù)據(jù)。例如,捕捉設備20(圖2) 的話筒30將傳感音頻數(shù)據(jù),并且在步驟412該數(shù)據(jù)將被發(fā)送給計算設備。在步驟414,該系統(tǒng)將自動地確定深度圖像數(shù)據(jù)、視覺圖像數(shù)據(jù)以及音頻數(shù)據(jù)的權重。例如,如以上討論的, 模態(tài)可靠性估計器308將確定各種權重。在步驟416,該系統(tǒng)將基于深度圖像數(shù)據(jù)、視覺圖像數(shù)據(jù)和音頻數(shù)據(jù)以及所所確定的權重的組合來自動地確定性別。在步驟418,計算系統(tǒng)將基于對性別的確定來與一個或多個用戶進行交互。例如,站在連接至視頻游戲控制臺的捕捉設備前方的用戶將具有所確定的用戶性別,并且隨后可基于適當?shù)男詣e來創(chuàng)建化身。用戶隨后可基于該化身來與視頻游戲進行交互??苫谛詣e來定制各種其他交互。圖7的步驟416包括組合深度圖像數(shù)據(jù)、視覺圖像數(shù)據(jù)以及音頻數(shù)據(jù)以便確定性別。一般而言,存在來自不同的源的至少三個級別的融合信息數(shù)據(jù)/傳感器級別、特征級別、以及判定級別。圖6的組件描繪了判定級別的信息融合。例如,將各類型的信息中的每一個發(fā)送給單獨的分類器,并且基于各個類型的信息來作出判定。由分類器作出的男性 /女性的判定隨后被組合。在數(shù)據(jù)傳感器級別的實施例中,來自不同的源的數(shù)據(jù)被饋送到一個判定作出實體,該一個判定作出實體將基于來自傳感器的所有原始數(shù)據(jù)來作出一個判定。在特征級別的實施例中,從原始數(shù)據(jù)中提取各種特征,并且將那些特征發(fā)送給一個判定作出實體,該一個判定作出實體將基于所有特征來作出單個判定。例如,可通過移除分類器 310-324并且使音頻特征提取模塊302、圖像特征提取模塊304以及深度特征提取模塊306 的輸出直接提供給概率聚集模塊330來修改圖6,以便提供特征級別的信息融合。在某些實施例中,可使用混合模型。例如,可將來自某種類型的數(shù)據(jù)的特征提供給單個分類器。例如,可將來自音頻特征提取302的MFCC和音調(diào)數(shù)據(jù)輸出兩者發(fā)送給將作出單個初始分類的單個分類器。在這一混合實施例中,將存在對于音頻數(shù)據(jù)的一個分類、對于視覺圖像數(shù)據(jù)的一個分類、以及對于深度圖像數(shù)據(jù)的一個分類。隨后將三個分類提供給概率聚集模塊330,以供基于概率、概率和權重、或其他因素的最終確定。圖8是描述用于通過使用圖6的組件所實現(xiàn)的特征級別模型來自動地確定性別的過程的一個實施例的流程圖。圖8的過程是圖7的步驟414和416的一個示例實現(xiàn)。在圖 8的步驟500,將訪問深度圖像數(shù)據(jù)。在步驟502,規(guī)格化深度圖像數(shù)據(jù)。S卩,在分類之前,深度圖像數(shù)據(jù)被預處理,使得該系統(tǒng)將訪問具有相同視圖的深度圖像。例如,可改變該對象的定向,使得總是使用公共定向。在圖8的步驟504,模態(tài)可靠性估計器308將被用于基于深度圖像數(shù)據(jù)中的噪聲來將權重分配給深度圖像數(shù)據(jù)。在步驟506,如以上討論的,深度圖像數(shù)據(jù)的特征將由深度特征提取模塊306來提取。在步驟508,一個或多個模態(tài)被用于基于所提取的深度圖像數(shù)據(jù)的特征來作出一個或多個分開的性別判定。例如,圖6示出四個性別分類器318、320、322和 324,它們表示基于所提取的深度數(shù)據(jù)的特征來作出分開的性別判定的一個或多個模態(tài)。在步驟510,訪問視覺圖像數(shù)據(jù)。在步驟512,模態(tài)可靠性估計器308將基于對象的光照、曝光、焦點和/或成幀來將權重分配給視覺圖像數(shù)據(jù)。在步驟514,如以上討論的, 圖像特征提取模塊304將從視覺圖像數(shù)據(jù)中提取適當特征。在步驟516,一個或多個模態(tài)被用于基于視覺圖像數(shù)據(jù)來作出一個或多個分開的性別判定。例如,圖6示出了分類器314 和316,它們是作出一個或多個分開的性別判定的模態(tài)的示例。在步驟518,訪問音頻數(shù)據(jù)。在步驟520,模態(tài)可靠性估計器308基于數(shù)據(jù)中的噪聲和/或音頻信號的音量來將一個或多個權重分配給音頻數(shù)據(jù)。在步驟522,音頻數(shù)據(jù)的各種特征將由音頻特征提取模塊602來提取。在步驟524,一個或多個模態(tài)被用于基于音頻數(shù)據(jù)來作出一個或多個分開的性別判定。例如,圖6示出了分類器310和312,它們是作出關于該對象的性別的一個或多個分開的判定的模態(tài)的示例。在步驟526,基于所分配的權重來組合在步驟508、516和524中所作出的分開的性別判定,以便創(chuàng)建關于該對象的性別的合成且最終的判定。例如,最終判定由概率聚集模塊330在步驟5 作出。
存在用于基于以上討論的各種數(shù)據(jù)來對性別作出分類的許多不同方法。此處描述的技術不限于用于作出初始分類的任何一種方法。在一個示例中,來自傳感器的數(shù)據(jù)可被聚集并擬合到高斯分布。將數(shù)據(jù)的每一高斯分布與女性或男性相關聯(lián)。當新數(shù)據(jù)被接收時, 該系統(tǒng)將嘗試把該數(shù)據(jù)擬合到具有最佳擬合的高斯分布。具有最佳擬合的高斯分布將與男性或女性相關聯(lián),并且該系統(tǒng)可基于該高斯分布來將對象分類成男性或女性?;蛘撸撓到y(tǒng)將找到擬合該數(shù)據(jù)的最佳女性分布以及擬合該數(shù)據(jù)的最佳男性分布,并且創(chuàng)建位于兩個分布中的數(shù)據(jù)的概率。圖9和10提供了使用這樣的高斯分布的示例。圖9的過程在可確定并使用性別的計算系統(tǒng)的標準操作之前執(zhí)行。例如,圖9的過程可以是用于提供數(shù)據(jù)以供將來的性別確定的訓練過程的一部分。在圖9的步驟530,該系統(tǒng)將標識已知對象的數(shù)據(jù)點。例如,視頻游戲控制臺將要求用戶使女性站在捕捉設備20 前方,并且可以獲得視覺圖像、深度圖像以及語音的數(shù)據(jù)??舍槍δ行灾貜拖嗤倪^程??舍槍υS多女性和許多男性執(zhí)行步驟530。在步驟532,該系統(tǒng)將創(chuàng)建來自步驟530的數(shù)據(jù)點的多維圖表。在步驟534,該系統(tǒng)將創(chuàng)建數(shù)據(jù)點的多個高斯分布。每一高斯分布將僅僅是男性數(shù)據(jù)點或僅僅是女性數(shù)據(jù)點??纱嬖谀行詳?shù)據(jù)點的多個高斯分布,以及女性數(shù)據(jù)點的多個高斯分布。圖10的過程是使用來自圖9的所訓練的數(shù)據(jù)來對于對象的性別進行分類的一個示例。例如,圖10的過程可被用作圖8的步驟508、516和524的一部分,以便作出對象是男性還是女性的初始分類。在圖10的步驟550中,該系統(tǒng)將從以上討論的傳感器中的任一個接收各種數(shù)據(jù)點。在步驟522,數(shù)據(jù)點將在以上討論的多維圖表中被標繪。注意,不必實際地繪制多維圖。相反,可使用數(shù)據(jù)結構或等效手段來用符號標繪該數(shù)據(jù)。在步驟554,該系統(tǒng)將標識男性數(shù)據(jù)的最接近的高斯分布以及女性數(shù)據(jù)的最接近的高斯分布。在步驟陽6, 該系統(tǒng)將確定該數(shù)據(jù)位于女性數(shù)據(jù)的最接近的高斯分布中的可能性、以及該數(shù)據(jù)位于男性數(shù)據(jù)的最接近的高斯分布中的可能性。這些概率將由適當?shù)姆诸惼?例如分類器310-324) 輸出。概率聚集模塊330將使用這些概率(乘以或以其他方式組合來自模態(tài)可靠性估計器 308的權重),來確定關于該對象的性別的最終判定。
圖11是描述用于使用所分配的權重來組合性別判定的一個實施例的流程圖。艮口, 圖11的過程是圖8的步驟526的一個示例實現(xiàn)。在步驟570,將模態(tài)可靠性估計器308分配的深度數(shù)據(jù)權重乘以基于深度數(shù)據(jù)來作出初始分類的分類器(例如分類器318-324)的各性別判定中的每一個。例如,分類器中的每一個將輸出該對象是男性的概率以及該對象是女性的概率,并且步驟530將包括將權重乘以那些概率中的每一個概率。在步驟572,概率聚集模塊330將模態(tài)可靠性估計器308分配的視覺圖像權重乘以基于圖像特征來作出分類的分類器的各性別判定中的每一個。例如,由模態(tài)可靠性估計器308確定的圖像權重將被乘以由分類器314和316輸出的男性概率和女性概率。在步驟574,概率聚集模塊330將音頻數(shù)據(jù)權重乘以音頻數(shù)據(jù)的各性別判定中的每一個判定。例如,由模態(tài)可靠性估計器308 輸出的音頻數(shù)據(jù)的權重將被乘以如分類器310和312所計算的該對象為男性的概率以及該對象是女性的概率。在步驟576,所有乘積(權重乘以男性的可能性)將被合計,以便創(chuàng)建該對象為男性的可能性的總和。在步驟578,所有乘積(權重乘以男性的可能性)將被合計,以便創(chuàng)建該對象為女性的可能性的總和。在步驟580,確定哪個總和更大。如果女性總和更大,則在步驟582,概率聚集模塊330報告該對象是女性。如果男性總和更大,則在步驟 584,概率聚集模塊330在步驟584報告該對象是男性。注意,步驟582和584包括向應用 52(見圖2)報告該性別,應用52將使用該信息來定制與用戶的交互。圖12是描繪用于基于在特征級別組合數(shù)據(jù)來自動地確定性別的過程的一個實施例的流程圖。即,圖12的過程是圖7的步驟414或416的一個示例實現(xiàn)。與圖11的過程比較,圖12的過程是一個替換實施例。在圖12的步驟602中,該系統(tǒng)將接收或訪問深度數(shù)據(jù)。在步驟604,基于數(shù)據(jù)中的噪聲來將權重分配給深度數(shù)據(jù)。在步驟604,深度數(shù)據(jù)將被過濾,以便標識一個或多個預先確定的特征的數(shù)據(jù)。步驟604包括將這樣的特征標識為曲率、形狀、步行方式等。在步驟606,該系統(tǒng)將接收或訪問視覺圖像數(shù)據(jù)。在步驟608,將基于對象的光照、曝光、焦點和/或成幀來將一個或多個權重分配給視覺圖像數(shù)據(jù)。在步驟 610,視覺圖像將被過濾,以便標識一個或多個預先確定的特征的數(shù)據(jù)。例如,該系統(tǒng)將找出嘴角、眼角、鼻子形狀、亞當?shù)奶O果等數(shù)據(jù)。在步驟612,該系統(tǒng)將接收或訪問音頻數(shù)據(jù)。在步驟614,基于噪聲或音量來將一個或多個權重分配給音頻數(shù)據(jù)。在步驟616,音頻數(shù)據(jù)將被過濾,以便標識一個或多個預先確定的特征,諸如音調(diào)、音質、缺口等。在步驟618,將基于經(jīng)過濾的深度數(shù)據(jù)、經(jīng)過濾的視覺數(shù)據(jù)以及經(jīng)過濾的音頻數(shù)據(jù)來作出性別判定。圖13是描繪用于組合不同類型的數(shù)據(jù)以確定性別的過程的一個實施例的流程圖,其中,數(shù)據(jù)在該數(shù)據(jù)/傳感器級別被組合。即,圖13的過程是用于實現(xiàn)圖4的步驟414 和416的替換實施例。在步驟702,將通過使用已知對象的數(shù)據(jù)來訓練該系統(tǒng),以便確定用已知對象的數(shù)據(jù)提供可靠結果的等式的系數(shù)。例如,圖13a示出一圖。底層節(jié)點包括來自傳感器的數(shù)據(jù)\。圖13a僅示出各種數(shù)據(jù)值~的一個子集,并且更多的數(shù)據(jù)值將被包括在生產(chǎn)版本圖中。圖13a的圖還示出中間判定yi。圖13a示出用于確定71處的值的一般公式,該公式是函數(shù)g,該函數(shù)g包括將系數(shù)Wij乘以數(shù)據(jù)傳感器值\的全部或子集,并且合計這些系數(shù),加上一偏置。在一個實施例中,存在兩個上層節(jié)Azn^n &。節(jié)點2_ 是指示該對象為男性的判定概率的最終節(jié)點,并且&提供了該對象是女性的判定概率。圖13A將用于確定該對象為男性的公式示為函數(shù)h,即系數(shù)Wmi乘以一個或多個函數(shù)yi的總和、并加上一偏置。步驟702的目的在于使用性別已知的對象的數(shù)據(jù),以便計算提供可靠結果的系數(shù)Wffli, Wfi以及Wij。步驟702在系統(tǒng)的操作之前或在專門的訓練會話期間執(zhí)行。步驟704-72 在生產(chǎn)操作期間(例如在玩視頻游戲、提供服務或使用應用的時候)執(zhí)行。在圖13的步驟704中,該系統(tǒng)將訪問深度數(shù)據(jù),并且將其插入適當?shù)牡仁街?。在步驟706,該系統(tǒng)將訪問視覺數(shù)據(jù),并且將其插入適當?shù)牡仁街?。在步驟708,該系統(tǒng)將訪問音頻數(shù)據(jù),并且將其插入適當?shù)牡仁街小T诓襟E710,各等式被求值,以便確定該對象為男性的概率以及該對象為女性的概率。如果為男性的概率大于為女性的概率,則最終判定將是該對象為男性。如果該對象為女性的概率大于該對象為男性的概率,則最終判定將是該對象為女性回看圖7,步驟416包括基于圖7中對性別的確定來與一個或多個用戶進行交互。 圖14A和14B提供如果基于該性別確定來與用戶進行交互的示例。圖14A是描述通過創(chuàng)建適當性別的化身來與用戶進行交互的流程圖。在步驟802, 該系統(tǒng)將創(chuàng)建并顯示與為該對象用戶所確定的性別匹配的適當性別的化身。在步驟804,該化身將基于運動和/或音頻來與用戶進行交互。例如,用戶運動將被跟蹤,并且化身將模仿那些運動或對那些運動作出響應。另外地,用戶可以說語音命令來控制化身。在一個實施例中,當用戶說話時,化身可以用相同或不同的語言來說相同的單詞。圖14B是描述基于性別確定來與用戶進行交互以便改進語音命令的識別的流程圖。在一個實施例中,該系統(tǒng)將包括用于標識來自男性的語音命令的一個庫以及用于標識來自女性的語音命令的另一個庫。在圖14B的步驟840,該系統(tǒng)將基于所確定的性別來加載適當?shù)囊纛l命令庫。例如,如果該系統(tǒng)確定該對象的性別為女性,則在步驟840,女性語音命令庫將被加載。在步驟842,該系統(tǒng)將使用所加載的音頻命令庫、基于音頻命令(包括識別音頻命令)來與用戶進行交互,使得用戶可使用音頻命令來指示該系統(tǒng)執(zhí)行各種功能。盡管用結構特征和/或方法動作專用的語言描述了本主題,但可以理解,所附權利要求書中定義的主題不必限于上述具體特征或動作。更確切而言,上述具體特征和動作是作為實現(xiàn)權利要求的示例形式公開的。本發(fā)明的范圍旨在由所附權利要求書來定義。
權利要求
1.一種用于數(shù)據(jù)處理系統(tǒng)與用戶進行交互的方法,包括 接收關于人的深度數(shù)據(jù)G02);接收除關于該人的深度數(shù)據(jù)以外的一個或多個類型的數(shù)據(jù)008、412); 基于所述深度數(shù)據(jù)以及除深度數(shù)據(jù)以外的所述一個或多個類型的數(shù)據(jù)來自動地確定該人的性別(416);以及基于對性別的確定來執(zhí)行動作G18)。
2.如權利要求1所述的方法,其特征在于所述接收除深度數(shù)據(jù)以外的一個或多個類型的數(shù)據(jù)包括接收該人的語音的音頻數(shù)據(jù)。
3.如權利要求1所述的方法,其特征在于所述接收除深度數(shù)據(jù)以外的一個或多個類型的數(shù)據(jù)包括接收該人的視覺圖像、紅外圖像或熱圖像。
4.如權利要求1所述的方法,其特征在于,還包括基于所述數(shù)據(jù)的質量來將權重分配給所述深度數(shù)據(jù)以及所述一個或多個其他類型的數(shù)據(jù),自動地確定性別進一步基于所分配的權重。
5.如權利要求1所述的方法,其特征在于,自動地確定性別包括從所述深度數(shù)據(jù)中提取第一組一個或多個特征,并且基于所述第一組一個或多個特征來作出性別的第一確定;從所述深度數(shù)據(jù)中提取第二組一個或多個特征,并且基于所述第二組一個或多個特征來作出性別的第二確定;從不同類型的數(shù)據(jù)中提取第三組一個或多個特征,并且基于所述第三組一個或多個特征來作出性別的第三確定,所述不同類型的數(shù)據(jù)是除深度數(shù)據(jù)以外的所述一個或多個類型的數(shù)據(jù)中的一個;從所述不同類型的數(shù)據(jù)中提取第四組一個或多個特征,并且基于所述第四組一個或多個特征來作出性別的第四確定;以及基于所述性別的第一確定、所述性別的第二確定、所述性別的第三確定以及所述性別的第四確定形成來對性別的結論。
6.如權利要求5所述的方法,其特征在于,還包括標識對于所述深度數(shù)據(jù)的第一權重、以及對于所述不同類型的數(shù)據(jù)的第二權重; 將所述第一權重分配給所述性別的第一確定; 將所述第一權重分配給所述性別的第二確定; 將所述第二權重分配給所述性別的第三確定;以及將所述第二權重分配給所述性別的第四確定,并且使用對性別的各確定以及所分配的各權重來形成結論。
7.如權利要求6所述的方法,其特征在于,還包括通過變換深度圖像來規(guī)格化所述深度數(shù)據(jù),所述變換深度圖像改變該人在所述深度圖像中的定向。
8.如權利要求7所述的方法,其特征在于作出性別的第一確定包括基于屬于多個高斯分布中的特定高斯分布的概率來將所述第一組一個或多個特征分配給所述特定高斯分布;將所述第一權重分配給所述性別的第一確定包括將所述第一權重乘以屬于所述特定高斯分布的可能性,以便創(chuàng)建所述性別的第一確定的乘積;以及將性別的各確定以及所分配的各權重進行組合包括將所述性別的第一確定的乘積與所述性別的第二、第三以及第四確定的乘積相加,以便創(chuàng)建合成分數(shù),并且基于所述合成分數(shù)來確定該人的性別。
9.如權利要求1所述的方法,其特征在于,自動地確定性別包括 過濾所述深度數(shù)據(jù)以標識第一特征的數(shù)據(jù);過濾所述一個或多個類型的數(shù)據(jù)以標識其他特征的數(shù)據(jù);以及基于所述第一特征的數(shù)據(jù)以及所述其他特征的數(shù)據(jù)來標識該人的性別。
10.如權利要求1所述的方法,其特征在于,自動地確定性別包括將所述深度數(shù)據(jù)以及所述除深度數(shù)據(jù)以外的一個或多個類型的數(shù)據(jù)插入作出性別的一個判定的一組一個或多個等式。
11.如權利要求1所述的方法,其特征在于,基于對性別的確定來與該人進行交互包括創(chuàng)建并顯示具有與所確定的該人的性別匹配的性別的化身。
12.如權利要求1所述的方法,其特征在于,基于對性別的確定來與該人進行交互包括基于對性別的確定來從多個語音命令庫中選擇特定語音命令庫; 接收語音命令;以及使用所述特定語音命令庫來解釋所接收的語音命令。
13.一種計算裝置,包括 深度傳感器06);不同的傳感器( ),其不同于深度傳感器; 用戶接口(16);以及處理器(12),所述處理器與所述深度傳感器、不同的傳感器以及用戶接口進行通信,所述處理器基于來自所述深度傳感器以及所述不同的傳感器的數(shù)據(jù)來確定人的性別,所述處理器基于對性別的確定來改變所述用戶接口。
14.如權利要求13所述的計算機,其特征在于所述計算裝置還包括與所述處理器通信的圖像傳感器; 所述不同的傳感器是音頻傳感器;所述處理器基于來自所述深度傳感器、所述圖像傳感器以及所述音頻傳感器的數(shù)據(jù)來確定人的性別。
15.如權利要求14所述的計算機,其特征在于所述處理器自動地跟蹤使用來自所述深度傳感器的數(shù)據(jù)來確定其性別的人的運動;以及所述處理器響應于跟蹤運動來改變所述用戶接口。
全文摘要
本發(fā)明公開了多模態(tài)性別識別的方法和系統(tǒng)。使用兩個或多個模態(tài)來執(zhí)行性別識別。例如,接收深度圖像數(shù)據(jù)以及除深度圖像數(shù)據(jù)以外的一個或多個類型的數(shù)據(jù)。該數(shù)據(jù)與人有關。不同類型的數(shù)據(jù)被融合在一起,以便自動地確定該人的性別。計算系統(tǒng)隨后可基于對性別的確定來與該人進行交互。
文檔編號G06F3/01GK102262440SQ20111017075
公開日2011年11月30日 申請日期2011年6月13日 優(yōu)先權日2010年6月11日
發(fā)明者A·A-A·基普曼, Z·張 申請人:微軟公司