本發(fā)明涉及信息處理技術(shù),尤其涉及一種視頻圖像的處理方法、裝置和終端設(shè)備。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們越來越多地使用互聯(lián)網(wǎng)觀看視頻,由此,互聯(lián)網(wǎng)視頻為許多新的業(yè)務(wù)提供了商機。因為互聯(lián)網(wǎng)視頻可以成為重要的業(yè)務(wù)流量入口,因而被認為是廣告植入的優(yōu)質(zhì)資源。
現(xiàn)有視頻廣告主要通過植入的方式,在視頻播放的某個時間插入固定時長的廣告,或在視頻播放的區(qū)域及其周邊區(qū)域固定位置放置廣告。
但是,一方面,這種視頻廣告方式不但占用網(wǎng)絡(luò)資源,也占用客戶端的系統(tǒng)資源;另一方面,這種視頻廣告方式往往打擾觀眾的正常視頻觀看體驗,引起觀眾反感,不能達到預(yù)想的廣告效果。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于,提供一種視頻圖像的處理的方案。
根據(jù)本發(fā)明實施例的一方面,提供一種視頻圖像的處理方法。所述方法包括,對當前播放的包含人臉信息的視頻圖像進行人臉的面部動作檢測;當確定檢測到的面部動作與對應(yīng)的預(yù)定面部動作相匹配時,確定待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置;在所述展現(xiàn)位置采用計算機繪圖方式繪制所述待展現(xiàn)的業(yè)務(wù)對象。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述對當前播放的包含人臉信息的視頻圖像進行人臉的面部動作檢測,包括:從當前播放的包含人臉信息的視頻圖像中提取人臉關(guān)鍵點,使用預(yù)先訓(xùn)練的、用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型,確定所述視頻圖像中人臉的面部動作的狀態(tài),并根據(jù)視頻圖像中人臉動作狀態(tài)確定所述視頻圖像中人臉的面部動作。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,對所述第一卷積網(wǎng)絡(luò)模型進行預(yù)先訓(xùn)練,包括:獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,其中,所述樣本圖像包含被標注的人臉動作狀態(tài)的信息;使用所述訓(xùn)練樣本對所述第一卷積網(wǎng)絡(luò)模型進行訓(xùn)練,得到用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,包括:獲取多張包括人臉信息的樣本圖像;對每張所述樣本圖像,檢測樣本圖像中的人臉和人臉關(guān)鍵點,通過所述人臉關(guān)鍵點將樣本圖像中的人臉進行定位,得到人臉定位信息;將包含所述人臉定位信息的所述樣本圖像作為訓(xùn)練樣本。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述確定待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置,包括:提取與檢測到的面部動作相應(yīng)的人臉區(qū)域內(nèi)的人臉特征點;根據(jù)所述人臉特征點,確定所述待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述根據(jù)所述人臉特征點,確定所述待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置,包括:根據(jù)所述人臉特征點,使用預(yù)先訓(xùn)練的、用于確定業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置的第二卷積網(wǎng)絡(luò)模型,確定所述待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,對所述第二卷積網(wǎng)絡(luò)模型的預(yù)先訓(xùn)練,包括:獲取訓(xùn)練樣本的樣本圖像的特征向量,其中,所述特征向量中包含有所述樣本圖像中的業(yè)務(wù)對象的位置信息和/或置信度信息,以及樣本圖像中面部動作相應(yīng)的人臉區(qū)域內(nèi)的人臉特征點對應(yīng)的人臉特征向量;對所述特征向量進行卷積處理,獲取特征向量卷積結(jié)果;判斷所述特征向量卷積結(jié)果中對應(yīng)的業(yè)務(wù)對象的位置信息和/或置信度信息是否滿足業(yè)務(wù)對象收斂條件,并判斷所述特征向量卷積結(jié)果中對應(yīng)的人臉特征向量是否滿足人臉收斂條件;若都滿足,則完成對所述第二卷積網(wǎng)絡(luò)模型的訓(xùn)練;否則,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對第二卷積網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的業(yè)務(wù)對象的位置信息和/或置信度信息以及所述人臉特征向量均滿足相應(yīng)的收斂條件。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述根據(jù)所述人臉特征點,確定所述待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置,包括:根據(jù)所述人臉特征點和所述待展現(xiàn)的業(yè)務(wù)對象的類型,確定待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,根據(jù)所述人臉特征點和所述待展現(xiàn)的業(yè)務(wù)對象的類型,確定待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置,包括:根據(jù)所述人臉特征點和所述待展現(xiàn)的業(yè)務(wù)對象的類型,獲得待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的多個展現(xiàn)位置;從所述多個展現(xiàn)位置中選擇至少一個展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述確定待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置,包括:從預(yù)先存儲的面部動作與展現(xiàn)位置的對應(yīng)關(guān)系中,獲取所述預(yù)定面部動作對應(yīng)的目標展現(xiàn)位置作為所述待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述業(yè)務(wù)對象為包含有語義信息的特效;所述視頻圖像為直播類視頻圖像。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述業(yè)務(wù)對象包括包含廣告信息的以下至少一種形式的特效:二維貼紙?zhí)匦?、三維特效、粒子特效。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述展示位置包括以下至少之一:視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域為中心的設(shè)定范圍內(nèi)的區(qū)域、視頻圖像中預(yù)先設(shè)定的區(qū)域。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述業(yè)務(wù)對象的類型包括以下至少之一:額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理方法,其中,所述人臉的面部動作包括以下至少之一:眨眼、親吻、張嘴、搖頭、點頭、笑、哭、皺眉、閉左/右/雙眼、嘟嘴。
根據(jù)本發(fā)明實施例的另一方面,提供一種視頻圖像的處理裝置。所述裝置包括:視頻圖像檢測模塊,用于對當前播放的包含人臉信息的視頻圖像進行人臉的面部動作檢測;展現(xiàn)位置確定模塊,用于當確定檢測到的面部動作與對應(yīng)的預(yù)定面部動作相匹配時,確定待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置;業(yè)務(wù)對象繪制模塊,在所述展現(xiàn)位置采用計算機繪圖方式繪制所述待展現(xiàn)的業(yè)務(wù)對象。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述視頻圖像檢測模塊,用于從當前播放的包含人臉信息的視頻圖像中提取人臉關(guān)鍵點,使用預(yù)先訓(xùn)練的、用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型,確定所述視頻圖像中人臉的面部動作的狀態(tài),并根據(jù)視頻圖像中人臉動作狀態(tài)確定所述視頻圖像中人臉的面部動作。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,訓(xùn)練樣本獲取模塊,用于獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,其中,所述樣本圖像包含被標注的人臉動作狀態(tài)的信息;第一卷積網(wǎng)絡(luò)模型確定模塊,用于使用所述訓(xùn)練樣本對所述第一卷積網(wǎng)絡(luò)模型進行訓(xùn)練,得到用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述訓(xùn)練樣本獲取模塊,包括:樣本圖像獲取單元,用于獲取多張包括人臉信息的樣本圖像;人臉定位信息確定單元,用于對每張所述樣本圖像,檢測樣本圖像中的人臉和人臉關(guān)鍵點,通過所述人臉關(guān)鍵點將樣本圖像中的人臉進行定位,得到人臉定位信息;訓(xùn)練樣本確定單元,用于將包含所述人臉定位信息的所述樣本圖像作為訓(xùn)練樣本。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述展現(xiàn)位置確定模塊,包括:特征點提取單元,用于提取與檢測到的面部動作相應(yīng)的人臉區(qū)域內(nèi)的人臉特征點;展現(xiàn)位置確定單元,用于根據(jù)所述人臉特征點,確定所述待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述展現(xiàn)位置確定模塊,用于根據(jù)所述人臉特征點,使用預(yù)先訓(xùn)練的、用于確定業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置的第二卷積網(wǎng)絡(luò)模型,確定所述待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述裝置還包括:特征向量獲取模塊,用于獲取訓(xùn)練樣本的樣本圖像的特征向量,其中,所述特征向量中包含有所述樣本圖像中的業(yè)務(wù)對象的位置信息和/或置信度信息,以及樣本圖像中面部動作相應(yīng)的人臉區(qū)域內(nèi)的人臉特征點對應(yīng)的人臉特征向量;卷積模塊,用于對所述特征向量進行卷積處理,獲取特征向量卷積結(jié)果;收斂條件判斷模塊,用于判斷所述特征向量卷積結(jié)果中對應(yīng)的業(yè)務(wù)對象的位置信息和/或置信度信息是否滿足業(yè)務(wù)對象收斂條件,并判斷所述特征向量卷積結(jié)果中對應(yīng)的人臉特征向量是否滿足人臉收斂條件;模型訓(xùn)練模塊,用于若都滿足,則完成對所述第二卷積網(wǎng)絡(luò)模型的訓(xùn)練;否則,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對第二卷積網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的業(yè)務(wù)對象的位置信息和/或置信度信息以及所述人臉特征向量均滿足相應(yīng)的收斂條件。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述展現(xiàn)位置確定模塊,用于根據(jù)所述人臉特征點和所述待展現(xiàn)的業(yè)務(wù)對象的類型,確定待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述展現(xiàn)位置確定模塊,包括:展現(xiàn)位置獲取單元,用于根據(jù)所述人臉特征點和所述待展現(xiàn)的業(yè)務(wù)對象的類型,獲得待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的多個展現(xiàn)位置;展現(xiàn)位置選擇單元,用于從所述多個展現(xiàn)位置中選擇至少一個展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述展現(xiàn)位置確定模塊,用于從預(yù)先存儲的面部動作與展現(xiàn)位置的對應(yīng)關(guān)系中,獲取所述預(yù)定面部動作對應(yīng)的目標展現(xiàn)位置作為所述待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述業(yè)務(wù)對象為包含有語義信息的特效;所述視頻圖像為直播類視頻圖像。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述業(yè)務(wù)對象包括包含廣告信息的以下至少一種形式的特效:二維貼紙?zhí)匦?、三維特效、粒子特效。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述展示位置包括以下至少之一:視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域為中心的設(shè)定范圍內(nèi)的區(qū)域、視頻圖像中預(yù)先設(shè)定的區(qū)域。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述業(yè)務(wù)對象的類型包括以下至少之一:額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型。
可選地,結(jié)合本發(fā)明實施例提供的任一種視頻圖像的處理裝置,其中,所述人臉的面部動作包括以下至少之一:眨眼、親吻、張嘴、搖頭、點頭、笑、哭、皺眉、閉左/右/雙眼、嘟嘴。
根據(jù)本發(fā)明實施例的又一方面,提供一種終端設(shè)備。所述終端設(shè)備包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;所述存儲器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行如上述提供的視頻圖像的處理方法對應(yīng)的操作。
根據(jù)本發(fā)明實施例的又一方面,還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有:用于對當前播放的包含人臉信息的視頻圖像進行人臉的面部動作檢測的可執(zhí)行指令;用于當確定檢測到的面部動作與對應(yīng)的預(yù)定面部動作相匹配時,確定待展現(xiàn)的業(yè)務(wù)對象在所述視頻圖像中的展現(xiàn)位置的可執(zhí)行指令;在所述展現(xiàn)位置采用計算機繪圖方式繪制所述待展現(xiàn)的業(yè)務(wù)對象的可執(zhí)行指令。
根據(jù)本發(fā)明實施例提供的視頻圖像的處理方法、裝置和終端設(shè)備,通過對當前播放的包含人臉信息的視頻圖像進行面部動作檢測,并將檢測到的面部動作與對應(yīng)的預(yù)定面部動作進行匹配,當兩者相匹配時,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置,進而從業(yè)務(wù)對象對應(yīng)的多幀展示圖像中選擇一幀展示圖像采用計算機繪圖方式繪制在展現(xiàn)位置,這樣當業(yè)務(wù)對象用于展示廣告時,與傳統(tǒng)的視頻廣告方式相比,一方面,該業(yè)務(wù)對象與視頻播放相結(jié)合,無須通過網(wǎng)絡(luò)傳輸與視頻無關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對象與視頻圖像中的面部動作緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動作,又為視頻圖像增加了趣味性,同時還不會打擾用戶正常觀看視頻,從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務(wù)對象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對象的影響力。
附圖說明
圖1是示出根據(jù)本發(fā)明實施例一的一種視頻圖像的處理方法的流程圖;
圖2是示出根據(jù)本發(fā)明實施例二的一種第一卷積網(wǎng)絡(luò)模型的獲取方法的流程圖;
圖3是示出根據(jù)本發(fā)明實施例三的一種視頻圖像的處理方法的流程圖;
圖4是示出根據(jù)本發(fā)明實施例四的一種視頻圖像的處理方法的流程圖;
圖5是示出根據(jù)本發(fā)明實施例五的一種視頻圖像的處理裝置的結(jié)構(gòu)框圖;
圖6是示出根據(jù)本發(fā)明實施例六的一種視頻圖像的處理裝置的結(jié)構(gòu)框圖;
圖7是示出根據(jù)本發(fā)明實施例七的一種終端設(shè)備的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖詳細描述本發(fā)明的示例性實施例。
實施例一
圖1是示出根據(jù)本發(fā)明實施例一的視頻圖像的處理方法的流程圖。通過包括視頻圖像的處理裝置的計算機系統(tǒng)執(zhí)行所述方法。
參照圖1,在步驟s110,對當前播放的包含人臉信息的視頻圖像進行人臉的面部動作檢測。
其中,面部動作包括但不限于眨眼、張嘴、點頭和嘟嘴等。人臉信息可以包括與面部、眼睛、嘴部、鼻子和/或頭發(fā)等相關(guān)的信息。視頻圖像可以是正在直播的直播視頻的圖像,也可以是已錄制完成或者正在錄制過程中的視頻圖像等。
在實施中,以視頻直播為例,目前,視頻直播平臺包括多個,如花椒直播平臺、yy直播平臺等,每一個直播平臺包括有多個直播房間,而每個直播房間中會包括至少一個主播,主播可以通過終端設(shè)備的攝像頭向其所在的直播房間中的粉絲直播視頻圖像。上述視頻圖像中的主體通常為一個主要人物(即主播)和簡單的背景,主播常常在視頻圖像中所占的區(qū)域較大。當需要在視頻直播的過程中插入業(yè)務(wù)對象(如廣告等)時,可以獲取當前視頻直播過程中的視頻圖像,然后,可以通過預(yù)先設(shè)置的人臉檢測機制對該視頻圖像進行人臉檢測,以判斷該視頻圖像中是否包括主播的人臉信息,如果包括,則獲取或記錄該視頻圖像,進行后續(xù)處理;如果不包括,則可以繼續(xù)對下一幀視頻圖像執(zhí)行上述相關(guān)處理,以得到包括主播的人臉信息的視頻圖像。
此外,視頻圖像還可以是已錄制完成的短視頻中的視頻圖像,對于此種情況,用戶可以使用其終端設(shè)備播放該短視頻,在播放的過程中,終端設(shè)備可以檢測每一幀視頻圖像中是否包括主播的人臉信息,如果包括,則獲取該視頻圖像,如果不包括,則可以丟棄該視頻圖像或者不對該視頻圖像做任何處理,并獲取下一幀視頻圖像繼續(xù)進行上述處理。
另外,對于視頻圖像是正在錄制過程中的視頻圖像的情況,在錄制的過程中,終端設(shè)備可以檢測錄制的每一幀視頻圖像中是否包括主播的人臉信息,如果包括,則獲取該視頻圖像,如果不包括,則可以丟棄該視頻圖像或者不對該視頻圖像做任何處理,并獲取下一幀視頻圖像繼續(xù)進行上述處理。
播放視頻圖像的終端設(shè)備或者主播使用的終端設(shè)備中設(shè)置有對視頻圖像進行人臉的面部動作檢測的機制,通過該機制可以對當前播放的包括人臉信息的每一幀視頻圖像進行檢測,得到從視頻圖像中檢測到的人臉的面部動作,一種可行的處理過程可以為,終端設(shè)備獲取當前正在播放的一幀視頻圖像,通過預(yù)先設(shè)定的機制可以從該視頻圖像中截取出包括人臉區(qū)域的圖像,然后,可以對人臉區(qū)域的圖像進行分析和特征提取,得到人臉區(qū)域中各個部位(包括眼睛、嘴和面部等)的特征數(shù)據(jù),通過對該特征數(shù)據(jù)的分析,確定視頻圖像中人臉的面部動作屬于眨眼、閉左/右/雙眼、眼珠向左/右運動、向左/右/上/下轉(zhuǎn)頭、笑、哭、皺眉、張嘴、點頭或嘟嘴等動作中的哪一種。
在步驟s120,當確定檢測到的面部動作與對應(yīng)的預(yù)定面部動作相匹配時,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。
其中,業(yè)務(wù)對象是根據(jù)一定的業(yè)務(wù)需求而創(chuàng)建的對象,例如廣告等。展現(xiàn)位置可以是視頻圖像中指定區(qū)域的中心位置,或者可以是上述指定區(qū)域中多個邊緣位置的坐標等。
在實施中,可以預(yù)先存儲多種不同的面部動作的特征數(shù)據(jù),并對不同的面部動作進行相應(yīng)的標記,以區(qū)分各個面部動作所代表的含義。通過上述步驟s110的處理可以從視頻圖像中檢測到人臉的面部動作,可以將檢測到的人臉的面部動作分別與預(yù)先存儲的每一種面部動作進行比對,如果預(yù)先存儲的多種不同的面部動作中包括與檢測到人臉的面部動作相同的面部動作,則可以確定檢測到的面部動作與對應(yīng)的預(yù)定面部動作相匹配。
為了提高匹配的準確度,可以通過計算的方式確定上述匹配結(jié)果,例如,可以設(shè)置匹配算法計算任意兩個面部動作之間的匹配度,例如,可以使用檢測到人臉的面部動作的特征數(shù)據(jù)和預(yù)先存儲的任一種面部動作的特征數(shù)據(jù)進行匹配計算,得到兩者之間的匹配度數(shù)值,通過上述方式分別計算得到檢測到的人臉的面部動作與預(yù)先存儲的每一種面部動作之間的匹配度數(shù)值,從得到的匹配度數(shù)值中選取最大的匹配度數(shù)值,如果該最大的匹配度數(shù)值超過預(yù)定的匹配閾值,則可以確定最大的匹配度數(shù)值對應(yīng)的預(yù)先存儲的面部動作與檢測到的面部動作相匹配。如果該最大的匹配度數(shù)值未超過預(yù)定的匹配閾值,則匹配失敗,即檢測到的面部動作不是預(yù)定面部動作,此時,可以繼續(xù)執(zhí)行上述步驟s110的處理。
進一步地,當確定檢測到的面部動作與對應(yīng)的預(yù)定面部動作相匹配時,可以先確定匹配到的面部動作所代表的含義,可以在預(yù)先設(shè)定的多個展現(xiàn)位置中選取與其含義相關(guān)或相應(yīng)的展現(xiàn)位置作為待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。例如,以視頻直播為例,當檢測到主播進行嘟嘴的面部動作時,可以將嘴部區(qū)域選取為與其相關(guān)或相應(yīng)的展現(xiàn)位置。
在步驟s130,在展現(xiàn)位置采用計算機繪圖方式繪制待展現(xiàn)的業(yè)務(wù)對象。
需要說明的是,為了增加業(yè)務(wù)對象的視覺效果,提高視頻圖像的趣味性,可以為業(yè)務(wù)對象設(shè)置動態(tài)效果,例如,業(yè)務(wù)對象可以是以一段視頻的方式呈現(xiàn),或者,可以是由多張展示圖像通過動態(tài)展示的方式呈現(xiàn)等。
例如,以視頻直播為例,當檢測到主播進行張嘴的面部動作時,可以在視頻圖像中主播的嘴部所在的區(qū)域內(nèi)繪制相應(yīng)的業(yè)務(wù)對象(如帶有預(yù)定商品標識的廣告圖像等),如果粉絲對該業(yè)務(wù)對象感興趣,則可以點擊該業(yè)務(wù)對象所在的區(qū)域,粉絲的終端設(shè)備可以獲取該業(yè)務(wù)對象對應(yīng)的網(wǎng)絡(luò)鏈接,并通過該網(wǎng)絡(luò)鏈接進入與該業(yè)務(wù)對象相關(guān)的頁面,粉絲可以在該頁面中獲取與該業(yè)務(wù)對象相關(guān)的資源。
其中,對業(yè)務(wù)對象采用計算機繪圖方式繪制可以通過適當?shù)挠嬎銠C圖形圖像繪制或渲染等方式實現(xiàn),包括但不限于:基于opengl圖形繪制引擎進行繪制等。opengl定義了一個跨編程語言、跨平臺的編程接口規(guī)格的專業(yè)的圖形程序接口,其與硬件無關(guān),可以方便地進行2d或3d圖形圖像的繪制。通過opengl,不僅可以實現(xiàn)2d效果如2d貼紙的繪制,還可以實現(xiàn)3d特效的繪制及粒子特效的繪制等等。但不限于opengl,其它方式,如unity或opencl等也同樣適用。
本發(fā)明實施例提供的視頻圖像的處理方法,通過對當前播放的包含人臉信息的視頻圖像進行面部動作檢測,并將檢測到的面部動作與對應(yīng)的預(yù)定面部動作進行匹配,當兩者相匹配時,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置,進而將業(yè)務(wù)對象采用計算機繪圖方式繪制在展現(xiàn)位置,這樣當業(yè)務(wù)對象用于展示廣告時,與傳統(tǒng)的視頻廣告方式相比,一方面,該業(yè)務(wù)對象與視頻播放相結(jié)合,無須通過網(wǎng)絡(luò)傳輸與視頻無關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對象與視頻圖像中的面部動作緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動作,又為視頻圖像增加了趣味性,同時還不會打擾用戶正常觀看視頻,從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務(wù)對象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對象的影響力。
實施例二
圖2是示出根據(jù)本發(fā)明實施例二的第一卷積網(wǎng)絡(luò)模型的獲取方法的流程圖。
上述實施例一中步驟s110的對視頻圖像進行人臉的面部動作檢測的處理可以采用相應(yīng)的特征提取算法或者使用神經(jīng)網(wǎng)絡(luò)模型如卷積網(wǎng)絡(luò)模型等實現(xiàn)。本實施例中以卷積網(wǎng)絡(luò)模型為例,對視頻圖像進行人臉的面部動作檢測,為此,可以預(yù)先訓(xùn)練用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型。
本實施例的視頻圖像的處理方法可以由任意具有數(shù)據(jù)采集、處理和傳輸功能的設(shè)備執(zhí)行,包括但不限于移動終端和pc等,本發(fā)明實施對此不做限定。
參照圖2,首先,為了對第一卷積網(wǎng)絡(luò)模型進行訓(xùn)練,可以通過多種方式獲取訓(xùn)練樣本,該訓(xùn)練樣本可以是多張包括人臉信息的樣本圖像,而且,該樣本圖像中包含有被標注的人臉動作狀態(tài)的信息。具體處理可以參見下述步驟s210~步驟s230。
在步驟s210,獲取多張包括人臉信息的樣本圖像,其中,樣本圖像包含被標注的人臉動作狀態(tài)的信息。
其中,人臉信息可包括局部屬性信息和全局屬性信息等,其中,局部屬性信息包括但不限于頭發(fā)顏色、頭發(fā)長短、眉毛長短、眉毛濃密或稀疏、眼睛大小、眼睛睜開或閉合、鼻梁高低、嘴巴大小、嘴巴張開或閉合、是否佩戴眼鏡、是否戴口罩等,全局屬性信息包括但不限于人種、性別、年齡等。樣本圖像可以是視頻或連續(xù)拍攝的多張圖像,也可以是任意圖像(其中可包括包含人臉的圖像和不包含人臉的圖像等)。
在實施中,由于圖像的分辨率越大其數(shù)據(jù)量也就越大,進行人臉動作狀態(tài)檢測時,所需要的計算資源越多,檢測速度越慢,鑒于此,在本發(fā)明的一種具體實現(xiàn)方式中,上述樣本圖像可以是滿足預(yù)設(shè)分辨率條件的圖像。例如,上述預(yù)設(shè)分辨率條件可以是:圖像的最長邊不超過640個像素點,最短邊不超過480個像素點等等。
樣本圖像可以是通過圖像采集設(shè)備得到,其中,用于采集用戶的人臉信息的圖像采集設(shè)備可以是專用相機或集成在其他設(shè)備中的相機等。然而,實際應(yīng)用中由于圖像采集設(shè)備的硬件參數(shù)不同、設(shè)置不同等等,所采集的圖像可能不滿足上述預(yù)設(shè)分辨率條件,為得到滿足上述預(yù)設(shè)分辨率條件的樣本圖像,在本發(fā)明的一種可選實現(xiàn)方式中,還可以在圖像采集設(shè)備采集到圖像之后,對所采集到的圖像進行縮放處理,以獲得符合條件的樣本圖像。
得到樣本圖像后,可以在每張樣本圖像中標注人臉動作狀態(tài),例如微笑、嘟嘴、閉左/右/雙眼等,可以將每張樣本圖像中被標注的人臉動作狀態(tài)與該樣本圖像作為訓(xùn)練數(shù)據(jù)存儲。
為了使得對樣本圖像中的人臉動作狀態(tài)的檢測更加準確,可以對樣本圖像中的人臉進行定位,從而得到樣本圖像中人臉的準確位置,具體可參見下述步驟s220的處理。
在步驟s220,對每張樣本圖像,檢測樣本圖像中的人臉和人臉關(guān)鍵點,通過人臉關(guān)鍵點將樣本圖像中的人臉進行定位,得到人臉定位信息。
在實施中,每張人臉都有一定的特征點,比如眼角、眉毛的末端、嘴角、鼻尖等特征點,再比如人臉的邊界點等,在獲得了人臉的特征點后,通過人臉關(guān)鍵點可以計算該樣本圖像中的人臉到預(yù)先設(shè)定的標準人臉的映射或者相似變換,將該樣本圖像中的人臉與上述標準人臉對齊,從而將樣本圖像中的人臉進行定位,得到樣本圖像中人臉的定位信息。
在步驟s230,將包含人臉定位信息的樣本圖像作為訓(xùn)練樣本。
在步驟s240,使用訓(xùn)練樣本對第一卷積網(wǎng)絡(luò)模型進行訓(xùn)練,得到用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型。
在實施中,第一卷積網(wǎng)絡(luò)模型的前端可以包括多個卷積層、池化層和非線性層的組合,其后端可以是損耗層(如基于softmax和/或crossentropy等算法的損耗層)。
第一卷積網(wǎng)絡(luò)模型的結(jié)構(gòu)可如下:
輸入層:該層用于讀入樣本圖像和被標注的人臉動作狀態(tài)的信息等。該層可以對樣本圖像進行預(yù)處理,輸出包括定位信息的人臉圖像或者人臉信息等。輸入層將經(jīng)過預(yù)處理的人臉圖像輸出到卷積層,同時將經(jīng)過預(yù)處理的人臉信息輸入到損耗層。
卷積層:其輸入是經(jīng)過預(yù)處理的人臉圖像或者圖像特征,通過預(yù)定的線性變換輸出得到人臉圖像的特征。
非線性層:可以通過非線性函數(shù)對卷積層輸入的特征進行非線性變換,使得其輸出的特征有較強的表達能力。
池化層:池化層可以將多個數(shù)值映射到一個數(shù)值,因此,該層不但可以進一步加強學(xué)習(xí)到的特征的非線性,而且可以使得輸出的特征的空間大小變小,而從增強學(xué)習(xí)的特征的平移(即人臉平移)不變性,提取的特征保持不變。其中,池化層的輸出特征可以再次作為卷積層的輸入數(shù)據(jù)或者全連接層的輸入數(shù)據(jù)。
其中,卷積層、非線性層和池化層可以重復(fù)一次或者多次,即卷積層、非線性層和池化層的組合可以重復(fù)一次或多次,其中,對于每一次,池化層的輸出數(shù)據(jù)可以作為卷積層的再次輸入數(shù)據(jù)。卷積層、非線性層和池化層三層的多次組合,可以更好的處理輸入的樣本圖像,使得樣本圖像中的特征具有最佳的表達能力。
全連接層:它對池化層的輸入數(shù)據(jù)進行線性變換,將學(xué)習(xí)得到的特征投影到一個更好的子空間以利于人臉動作狀態(tài)預(yù)測。
非線性層:與非線性層的功能一樣,對全連接層的輸入特征進行非線性變換。其輸出特征可以作為損耗層的輸入數(shù)據(jù)或者再次作為全連接層的輸入數(shù)據(jù)。
其中,全連接層和非線性層可以重復(fù)一次或者多次。
一個或者多個損耗層:主要負責(zé)計算預(yù)測的人臉動作狀態(tài)與輸入的人臉動作狀態(tài)的誤差。
通過向后傳遞的梯度下降算法,訓(xùn)練得到第一卷積網(wǎng)絡(luò)模型中的網(wǎng)絡(luò)參數(shù),這樣可以使得輸入層只需輸入圖像,即可輸出與輸入圖像中的人臉相應(yīng)的人臉動作狀態(tài)的信息,從而得到第一卷積網(wǎng)絡(luò)模型。
通過上述過程,輸入層負責(zé)簡單處理輸入,卷積層、非線性層和池化層的組合負責(zé)對樣本圖像的特征提取,全連接層和非線性層是提取的特征到人臉信息的映射,損耗層負責(zé)計算預(yù)測誤差。通過上述第一卷積網(wǎng)絡(luò)模型的多層設(shè)計保證提取的特征具有豐富的表達能力,而從更好的預(yù)測人臉動作狀態(tài)。同時,多個人臉信息同時連接損耗層,可確保多個任務(wù)同時學(xué)習(xí),共享卷積網(wǎng)絡(luò)學(xué)到的特征。
本實施例中,通過訓(xùn)練得到的第一卷積網(wǎng)絡(luò)模型,可方便后續(xù)對當前播放的包含人臉信息的視頻圖像進行面部動作檢測,并將檢測到的面部動作與對應(yīng)的預(yù)定面部動作進行匹配,當兩者相匹配時,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置,進而將業(yè)務(wù)對象采用計算機繪圖方式繪制在展現(xiàn)位置,這樣當業(yè)務(wù)對象用于展示廣告時,與傳統(tǒng)的視頻廣告方式相比,一方面,該業(yè)務(wù)對象與視頻播放相結(jié)合,無須通過網(wǎng)絡(luò)傳輸與視頻無關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對象與視頻圖像中的面部動作緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動作,又為視頻圖像增加了趣味性,同時還不會打擾用戶正常觀看視頻,從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務(wù)對象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對象的影響力。
實施例三
圖3是示出根據(jù)本發(fā)明實施例三的視頻圖像的處理方法的流程圖。本實施例中,業(yè)務(wù)對象為包含有語義信息的特效,具體地,業(yè)務(wù)對象可包括包含廣告信息的以下至少一種形式的特效:二維貼紙?zhí)匦?、三維特效、粒子特效等。視頻圖像為直播類視頻圖像,如花椒直播平臺中某主播進行視頻直播時的視頻圖像。
在步驟s310,獲取當前播放的包含人臉信息的視頻圖像。
其中,上述步驟s310的具體處理可參見與上述實施例一中步驟s110的相關(guān)內(nèi)容,在此不再贅述。
在步驟s320,從視頻圖像中提取人臉關(guān)鍵點,使用預(yù)先訓(xùn)練的、用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型,確定視頻圖像中人臉的面部動作。
在實施中,可對視頻圖像進行檢測,以判斷視頻圖像中是否包括人臉區(qū)域。如果判斷出視頻圖像中包括人臉區(qū)域,則在視頻圖像中提取人臉關(guān)鍵點??梢詫@取到的視頻圖像和人臉關(guān)鍵點輸入到上述實施例二中訓(xùn)練得到的第一卷積網(wǎng)絡(luò)模型中,通過第一卷積網(wǎng)絡(luò)模型中的網(wǎng)絡(luò)參數(shù)可以分別對視頻圖像進行如特征提取、映射和變換等處理,以對視頻圖像進行人臉的動作檢測,得到視頻圖像中人臉動作狀態(tài),從而基于人臉的動作狀態(tài),可以確定視頻圖像中包含的人臉的面部動作。
需要說明的是,對于由多個人臉動作狀態(tài)組合得到的面部動作(如眨眼,其可由睜眼、閉眼和睜眼,或者閉眼、睜眼和閉眼組合而成)來說,可以將此類型的面部動作劃分為多個狀態(tài),如,以眨眼為例,可劃分為睜眼狀態(tài)和閉眼狀態(tài),則上述處理具體可以為:從視頻圖像中提取人臉關(guān)鍵點,使用預(yù)先訓(xùn)練的、用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型,確定視頻圖像中人臉動作狀態(tài),并根據(jù)視頻圖像中人臉動作狀態(tài)確定視頻圖像中人臉的面部動作。
在實施中,可以獲取當前播放的包含人臉信息的多張視頻圖像,首先,可對多張視頻圖像的連續(xù)性進行判斷,以判斷上述多張視頻圖像在空間和時間上是否連續(xù)。若判斷為不連續(xù),則認證失敗或提醒用戶需要重新獲取視頻圖像。在進行視頻圖像連續(xù)性判斷時,例如可將每一幀視頻圖像分為3x3個區(qū)域,在每個區(qū)域上建立顏色直方圖、灰度的均值和方差。把相鄰兩張人臉圖像的直方圖的距離、灰度均值的距離以及灰度方差的距離當作特征向量,來判斷線性分類器是否大于或等于零。其中,線性分類器中的參數(shù)可以通過具有標注信息的樣本數(shù)據(jù)訓(xùn)練得到。如果線性分類器被判斷為大于或等于零,則認為上述的相鄰的兩張視頻圖像在時間和空間上是連續(xù)的,此時,可以基于每張視頻圖像提取的人臉關(guān)鍵點確定相應(yīng)的人臉動作狀態(tài),以便確定連續(xù)的多張視頻圖像所展現(xiàn)的臉部動作;如果線性分類器被判斷為小于零,則認為上述的相鄰的兩張視頻圖像在時間和空間上為不連續(xù),此時,可以當前視頻圖像為起點,繼續(xù)執(zhí)行上述步驟s310的處理。
如果上述多張視頻圖像連續(xù),則可基于從每張視頻圖像提取的人臉關(guān)鍵點,利用第一卷積網(wǎng)絡(luò)模型來判斷某一幀視頻圖像中人臉的臉部動作的狀態(tài),例如,以眨眼為例,此時可以計算睜眼狀態(tài)的概率或者閉眼狀態(tài)的概率來判斷該視頻圖像中人臉動作狀態(tài)。為此,可以在眨眼動作對應(yīng)的關(guān)鍵點中心附近提取圖像塊(即人臉信息),可通過第一卷積網(wǎng)絡(luò)模型得到人臉動作狀態(tài)的判斷。然后,可以基于每張視頻圖像中人臉動作狀態(tài)確定視頻圖像中人臉的面部動作。
而對于可以由一個人臉動作狀態(tài)即可確定相應(yīng)的面部動作(如微笑、張嘴、嘟嘴等)的情況來說,可以通過檢測到的帶有微笑、張嘴或嘟嘴等人臉動作狀態(tài)的視頻圖像,根據(jù)上述步驟s320的處理即可確定相應(yīng)的人臉的面部動作。
在步驟s330,當確定檢測到的面部動作與對應(yīng)的預(yù)定面部動作相匹配時,提取與檢測到的面部動作相應(yīng)的人臉區(qū)域內(nèi)的人臉特征點。
在實施中,對于包含人臉信息的每個視頻圖像,其中人臉中都會包含有一定的特征點,如眼睛、鼻子、嘴巴、臉部輪廓等特征點。對視頻圖像中的人臉進行檢測并確定特征點,可以采用任意適當?shù)南嚓P(guān)技術(shù)中的方式實現(xiàn),本發(fā)明實施例對此不作限定。例如,線性特征提取方式如pca主成分分析、lda線性判別分析、ica獨立成分分析等;再例如非線性特征提取方式如kernelpca核主成分分析、流形學(xué)習(xí)等;也可以使用訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型如本發(fā)明實施例中的卷積網(wǎng)絡(luò)模型進行人臉特征點的提取。
以視頻直播為例,在進行視頻直播的過程中,從直播的視頻圖像中檢測人臉并確定人臉特征點;再例如,在某一已錄制完成的視頻的播放過程中,從播放的視頻圖像中檢測人臉并確定人臉特征點;又例如,在某一視頻的錄制過程中,從錄制的視頻圖像中檢測人臉并確定人臉特征點等等。
在步驟s340,根據(jù)人臉特征點,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。
在實施中,在人臉特征點確定后,可以以此為依據(jù),確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的一個或多個展現(xiàn)位置。
在本實施例中,在根據(jù)目標對象的特征點確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置時,可行的實現(xiàn)方式包括:
方式一,根據(jù)人臉特征點,使用預(yù)先訓(xùn)練的、用于確定業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置的第二卷積網(wǎng)絡(luò)模型,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置;方式二,根據(jù)人臉特征點和待展現(xiàn)的業(yè)務(wù)對象的類型,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。
以下,分別對上述兩種方式進行詳細說明。
方式一
在使用方式一確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置時,需要預(yù)先訓(xùn)練一個卷積網(wǎng)絡(luò)模型(即第二卷積網(wǎng)絡(luò)模型),訓(xùn)練完成的第二卷積網(wǎng)絡(luò)模型具有確定業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置的功能;或者,也可以直接使用第三方已訓(xùn)練完成的、具有確定業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置的功能的卷積網(wǎng)絡(luò)模型。
需要說明的是,本實施例中,著重對業(yè)務(wù)對象的訓(xùn)練進行說明,但本領(lǐng)域技術(shù)人員應(yīng)當明了,第二卷積網(wǎng)絡(luò)模型在對業(yè)務(wù)對象進行訓(xùn)練的同時,也可以對人臉進行訓(xùn)練,實現(xiàn)人臉和業(yè)務(wù)對象的聯(lián)合訓(xùn)練。
當需要預(yù)先訓(xùn)練第二卷積網(wǎng)絡(luò)模型時,一種可行的訓(xùn)練方式包括以下過程:
(1)獲取訓(xùn)練樣本的樣本圖像的特征向量。
其中,特征向量中包含有訓(xùn)練樣本的樣本圖像中的業(yè)務(wù)對象的位置信息和/或置信度信息,以及樣本圖像中面部動作相應(yīng)的人臉區(qū)域內(nèi)的人臉特征點對應(yīng)的人臉特征向量。業(yè)務(wù)對象的置信度信息指示了業(yè)務(wù)對象展現(xiàn)在當前位置時,能夠達到的效果(如被關(guān)注或被點擊或被觀看)的概率,該概率可以根據(jù)對歷史數(shù)據(jù)的統(tǒng)計分析結(jié)果設(shè)定,也可以根據(jù)仿真實驗的結(jié)果設(shè)定,還可以根據(jù)人工經(jīng)驗進行設(shè)定。在實際應(yīng)用中,可以根據(jù)實際需要,僅對業(yè)務(wù)對象的位置信息進行訓(xùn)練,也可以僅對業(yè)務(wù)對象的置信度信息進行訓(xùn)練,還可以對二者均進行訓(xùn)練。對二者均進行訓(xùn)練,能夠使得訓(xùn)練后的第二卷積網(wǎng)絡(luò)模型更為有效和精準地確定業(yè)務(wù)對象的位置信息和置信度信息,以便為業(yè)務(wù)對象的展示提供依據(jù)。
第二卷積網(wǎng)絡(luò)模型通過大量的樣本圖像進行訓(xùn)練,本發(fā)明實施例中,需要使用包含有業(yè)務(wù)對象的樣本圖像對第二卷積網(wǎng)絡(luò)模型進行訓(xùn)練,本領(lǐng)域技術(shù)人員應(yīng)當明了的是,用來訓(xùn)練的樣本圖像中,除了包含業(yè)務(wù)對象外,也應(yīng)當包含人臉動作狀態(tài)的信息(用于確定人臉的面部動作的信息)。此外,本發(fā)明實施例中的樣本圖像中的業(yè)務(wù)對象可以被預(yù)先標注位置信息,或者置信度信息,或者二種信息都有。當然,在實際應(yīng)用中,這些信息也可以通過其它途徑獲取。而通過預(yù)先在對業(yè)務(wù)對象進行相應(yīng)信息的標注,可以有效節(jié)約數(shù)據(jù)處理的數(shù)據(jù)和交互次數(shù),提高數(shù)據(jù)處理效率。
將具有業(yè)務(wù)對象的位置信息和/或置信度信息,以及某種人臉屬性的樣本圖像作為訓(xùn)練樣本,對其進行特征向量提取,獲得包含有業(yè)務(wù)對象的位置信息和/或置信度信息的特征向量,以及人臉特征點對應(yīng)的人臉特征向量。
可選地,可以使用第二卷積網(wǎng)絡(luò)模型對人臉和業(yè)務(wù)對象同時進行訓(xùn)練,在此情況下,樣本圖像的特征向量中,也應(yīng)當包含人臉的特征。
對特征向量的提取可以采用相關(guān)技術(shù)中的適當方式實現(xiàn),本發(fā)明實施例在此不再贅述。
(2)對特征向量進行卷積處理,獲取特征向量卷積結(jié)果。
在實施中,獲取的特征向量卷積結(jié)果中包含有業(yè)務(wù)對象的位置信息和/或置信度信息,人臉動作狀態(tài)對應(yīng)的人臉特征向量對應(yīng)的特征向量卷積結(jié)果。在對人臉和業(yè)務(wù)對象進行聯(lián)合訓(xùn)練的情況下,特征向量卷積結(jié)果中還包含人臉動作狀態(tài)的信息。
對特征向量的卷積處理次數(shù)可以根據(jù)實際需要進行設(shè)定,也即,第二卷積網(wǎng)絡(luò)模型中,卷積層的層數(shù)根據(jù)實際需要進行設(shè)置,在此不再贅述。
卷積結(jié)果是對特征向量進行了特征提取后的結(jié)果,該結(jié)果能夠有效表征視頻圖像中人臉的特征對應(yīng)的業(yè)務(wù)對象。
本發(fā)明實施例中,當特征向量中既包含業(yè)務(wù)對象的位置信息,又包含業(yè)務(wù)對象的置信度信息時,也即,對業(yè)務(wù)對象的位置信息和置信度信息均進行了訓(xùn)練的情況下,該特征向量卷積結(jié)果在后續(xù)分別進行收斂條件判斷時共享,無須進行重復(fù)處理和計算,減少了由數(shù)據(jù)處理引起的資源損耗,提高了數(shù)據(jù)處理速度和效率。
(3)判斷該特征向量卷積結(jié)果中對應(yīng)的業(yè)務(wù)對象的位置信息和/或置信度信息是否滿足業(yè)務(wù)對象收斂條件,并判斷該特征向量卷積結(jié)果中對應(yīng)的人臉特征向量是否滿足人臉收斂條件。
其中,收斂條件由本領(lǐng)域技術(shù)人員根據(jù)實際需求適當設(shè)定。當信息滿足收斂條件時,可以認為第二卷積網(wǎng)絡(luò)模型中的網(wǎng)絡(luò)參數(shù)設(shè)置適當;當信息不能滿足收斂條件時,可以認為第二卷積網(wǎng)絡(luò)模型中的網(wǎng)絡(luò)參數(shù)設(shè)置不適當,需要對其進行調(diào)整,該調(diào)整是一個迭代的過程,直至使用調(diào)整后的網(wǎng)絡(luò)參數(shù)對特征向量進行卷積處理的結(jié)果滿足收斂條件。
一種可行方式中,收斂條件可以根據(jù)預(yù)設(shè)的標準位置和/或預(yù)設(shè)的標準置信度進行設(shè)定,如,將特征向量卷積結(jié)果中業(yè)務(wù)對象的位置信息指示的位置與預(yù)設(shè)的標準位置之間的距離是否滿足一定閾值作為業(yè)務(wù)對象的位置信息的收斂條件;將特征向量卷積結(jié)果中業(yè)務(wù)對象的置信度信息指示的置信度與預(yù)設(shè)的標準置信度之間的差別是否滿足一定閾值作為業(yè)務(wù)對象的置信度信息的收斂條件等。
其中,優(yōu)選地,預(yù)設(shè)的標準位置可以是對待訓(xùn)練的樣本圖像中的業(yè)務(wù)對象的位置進行平均處理后獲得的平均位置;預(yù)設(shè)的標準置信度可以是對待訓(xùn)練的樣本圖像中的業(yè)務(wù)對象的置信度進行平均處理后獲取的平均置信度。因樣本圖像為待訓(xùn)練樣本且數(shù)據(jù)量龐大,可依據(jù)待訓(xùn)練的樣本圖像中的業(yè)務(wù)對象的位置和/或置信度設(shè)定標準位置和/或標準置信度,這樣設(shè)定的標準位置和標準置信度也更為客觀和精確。
在具體進行特征向量卷積結(jié)果中對應(yīng)的業(yè)務(wù)對象的位置信息和/或置信度信息是否滿足收斂條件的判斷時,一種可行的方式包括:
獲取特征向量卷積結(jié)果中對應(yīng)的業(yè)務(wù)對象的位置信息,通過計算對應(yīng)的業(yè)務(wù)對象的位置信息指示的位置與預(yù)設(shè)的標準位置之間的歐式距離,得到對應(yīng)的業(yè)務(wù)對象的位置信息指示的位置與預(yù)設(shè)的標準位置之間的第一距離,根據(jù)第一距離判斷對應(yīng)的業(yè)務(wù)對象的位置信息是否滿足收斂條件;
和/或,
獲取特征向量卷積結(jié)果中對應(yīng)的業(yè)務(wù)對象的置信度信息,計算對應(yīng)的業(yè)務(wù)對象的置信度信息指示的置信度與預(yù)設(shè)的標準置信度之間的歐式距離,得到對應(yīng)的業(yè)務(wù)對象的置信度信息指示的置信度與預(yù)設(shè)的標準置信度之間的第二距離,根據(jù)第二距離判斷對應(yīng)的業(yè)務(wù)對象的置信度信息是否滿足收斂條件。其中,采用歐式距離的方式,實現(xiàn)簡單且能夠有效指示收斂條件是否被滿足。但不限于此,其它方式,如馬式距離,巴式距離等也同樣適用。
優(yōu)選地,如前所述,預(yù)設(shè)的標準位置為對待訓(xùn)練的樣本圖像中的業(yè)務(wù)對象的位置進行平均處理后獲得的平均位置;和/或,預(yù)設(shè)的標準置信度為對待訓(xùn)練的樣本圖像中的業(yè)務(wù)對象的置信度進行平均處理后獲取的平均置信度。
對于判斷該特征向量卷積結(jié)果中對應(yīng)的人臉特征向量是否滿足人臉收斂條件可以由本領(lǐng)域技術(shù)人員根據(jù)實際情況進行設(shè)定,本發(fā)明實施例對此不做限定。
(4)若都滿足,則完成對第二卷積網(wǎng)絡(luò)模型的訓(xùn)練;否則,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對第二卷積網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的業(yè)務(wù)對象的位置信息和/或置信度信息以及人臉特征向量均滿足相應(yīng)的收斂條件。
通過對第二卷積網(wǎng)絡(luò)模型進行上述訓(xùn)練,第二卷積網(wǎng)絡(luò)模型可以對基于人臉進行展示的業(yè)務(wù)對象的展現(xiàn)位置進行特征提取和分類,從而具有確定業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置的功能。其中,當展現(xiàn)位置包括多個時,通過上述業(yè)務(wù)對象置信度的訓(xùn)練,第二卷積網(wǎng)絡(luò)模型還可以確定出多個展現(xiàn)位置中的展示效果的優(yōu)劣順序,從而確定最優(yōu)的展現(xiàn)位置。在后續(xù)應(yīng)用中,當需要展示業(yè)務(wù)對象時,根據(jù)視頻中的當前圖像即可確定出有效的展現(xiàn)位置。
此外,在對第二卷積網(wǎng)絡(luò)模型進行上述訓(xùn)練之前,還可以預(yù)先對樣本圖像進行預(yù)處理,包括:獲取多個樣本圖像,其中,每個樣本圖像中包含有業(yè)務(wù)對象的標注信息;根據(jù)標注信息確定業(yè)務(wù)對象的位置,判斷確定的業(yè)務(wù)對象的位置與預(yù)設(shè)位置的距離是否小于或等于設(shè)定閾值;將小于或等于設(shè)定閾值的業(yè)務(wù)對象對應(yīng)的樣本圖像,確定為待訓(xùn)練的樣本圖像。其中,預(yù)設(shè)位置和設(shè)定閾值均可以由本領(lǐng)域技術(shù)人員采用任意適當方式進行適當設(shè)置,如根據(jù)數(shù)據(jù)統(tǒng)計分析結(jié)果或者相關(guān)距離計算公式或者人工經(jīng)驗等,本發(fā)明實施例對此不作限定。
通過預(yù)先對樣本圖像進行預(yù)處理,可以過濾掉不符合條件的樣本圖像,以保證訓(xùn)練結(jié)果的準確性。
通過上述過程實現(xiàn)了第二卷積網(wǎng)絡(luò)模型的訓(xùn)練,訓(xùn)練完成的第二卷積網(wǎng)絡(luò)模型可以用來確定業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。例如,在視頻直播過程中,若主播點擊業(yè)務(wù)對象指示進行業(yè)務(wù)對象展示時,在第二卷積網(wǎng)絡(luò)模型獲得了直播的視頻圖像中主播的面部特征點后,可以指示出展示業(yè)務(wù)對象的最優(yōu)位置如主播的額頭位置,進而控制直播應(yīng)用在該位置展示業(yè)務(wù)對象;或者,在視頻直播過程中,若主播點擊業(yè)務(wù)對象指示進行業(yè)務(wù)對象展示時,第二卷積網(wǎng)絡(luò)模型可以直接根據(jù)直播的視頻圖像確定業(yè)務(wù)對象的展現(xiàn)位置。
方式二
根據(jù)人臉特征點和待展現(xiàn)的業(yè)務(wù)對象的類型,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。
在實施中,在獲取了人臉特征點之后,可以按照設(shè)定的規(guī)則確定待展現(xiàn)的業(yè)務(wù)對象的展現(xiàn)位置。其中,確定待展現(xiàn)的業(yè)務(wù)對象的展現(xiàn)位置包括以下至少之一:視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域為中心的設(shè)定范圍內(nèi)的區(qū)域、視頻圖像中預(yù)先設(shè)定的區(qū)域等。
在確定了展現(xiàn)位置后,可以進一步確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。例如,以展現(xiàn)位置對應(yīng)的展現(xiàn)區(qū)域的中心點為業(yè)務(wù)對象的展現(xiàn)位置中心點進行業(yè)務(wù)對象的展示;再例如,將展現(xiàn)位置對應(yīng)的展現(xiàn)區(qū)域中的某一坐標位置確定為展現(xiàn)位置的中心點等,本發(fā)明實施例對此不作限定。
在一種優(yōu)選的實施方案中,在確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置時,不僅根據(jù)人臉特征點,還根據(jù)待展現(xiàn)的業(yè)務(wù)對象的類型,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。其中,業(yè)務(wù)對象的類型包括以下至少之一:額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型。但不限于此,業(yè)務(wù)對象的類型還可以為其它適當類型,如虛擬瓶蓋類型,虛擬杯子類型、文字類型等等。
由此,根據(jù)業(yè)務(wù)對象的類型,可以以人臉特征點為參考,為業(yè)務(wù)對象選擇適當?shù)恼宫F(xiàn)位置。
此外,在根據(jù)人臉特征點和待展現(xiàn)的業(yè)務(wù)對象的類型,獲得待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的多個展現(xiàn)位置的情況下,可以從多個展現(xiàn)位置中選擇至少一個展現(xiàn)位置。例如,對于文字類型的業(yè)務(wù)對象,可以展示在背景區(qū)域,也可以展示在人物的額頭或身體區(qū)域等。
此外,可以預(yù)先存儲面部動作與展現(xiàn)位置的對應(yīng)關(guān)系,在確定檢測到的面部動作與對應(yīng)的預(yù)定面部動作相匹配時,可從預(yù)先存儲的面部動作與展現(xiàn)位置的對應(yīng)關(guān)系中,獲取預(yù)定面部動作對應(yīng)的目標展現(xiàn)位置作為待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。其中,需要說明的是,盡管存在上述面部動作與展現(xiàn)位置的對應(yīng)關(guān)系,但是,面部動作與展現(xiàn)位置并沒有必然關(guān)系,面部動作僅僅是觸發(fā)業(yè)務(wù)對象展現(xiàn)的一種方式,而且展現(xiàn)位置與人臉也不存在必然關(guān)系,也即是業(yè)務(wù)對象可以展現(xiàn)在人臉的某一個區(qū)域,也可以顯示在人臉之外的其它區(qū)域,如視頻圖像的背景區(qū)域等。
在步驟s350,在展現(xiàn)位置采用計算機繪圖方式繪制待展現(xiàn)的業(yè)務(wù)對象。
基于步驟s350的內(nèi)容,當業(yè)務(wù)對象為包含有語義信息的貼紙,如廣告貼紙時,在進行業(yè)務(wù)對象的繪制之前,可以先獲取業(yè)務(wù)對象的相關(guān)信息,如業(yè)務(wù)對象的標識、大小等。在確定了展現(xiàn)位置后,可以根據(jù)展現(xiàn)位置的坐標,對業(yè)務(wù)對象進行縮放、旋轉(zhuǎn)等調(diào)整,然后,通過相應(yīng)的繪圖方式如opengl方式對業(yè)務(wù)對象進行繪制。在某些情況下,廣告還可以以三維特效形式展示,如通過粒子特效方式展示廣告的文字或logo等。例如,當主播張嘴時,可通過動態(tài)逐漸減少杯子中的液體的方式展示某一產(chǎn)品的廣告特效,該廣告特效可包括多張不同狀態(tài)的展示圖像(如包括杯子中液體量逐漸減少的多幀圖像)組成的視頻幀,通過opengl等計算機繪圖方式在展現(xiàn)位置上依次繪制視頻幀的相應(yīng)圖像,由此展示杯子中的液體量逐漸減少的動態(tài)效果。通過這種方式,實現(xiàn)了廣告效果的動態(tài)展現(xiàn)可以吸引觀眾觀看,提升廣告投放和展示的趣味性,提高廣告投放和展示效率。
本發(fā)明實施例提供的視頻圖像的處理方法,通過面部動作觸發(fā)業(yè)務(wù)對象(如廣告)的展現(xiàn),一方面,業(yè)務(wù)對象與視頻播放相結(jié)合,無須通過網(wǎng)絡(luò)傳輸與視頻無關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對象與視頻圖像中的面部動作緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動作,又為視頻圖像增加了趣味性,同時還不會打擾用戶正常觀看視頻,從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務(wù)對象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對象的影響力。
實施例四
圖4是示出根據(jù)本發(fā)明實施例四的視頻圖像的處理方法的流程圖。
本實施例以業(yè)務(wù)對象為包含有廣告信息的二維貼紙?zhí)匦槔?,對本發(fā)明實施例的視頻圖像的處理方案進行說明。
本實施例的視頻圖像的處理方法包括以下步驟:
在步驟s401,獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,其中,樣本圖像包含被標注的人臉動作狀態(tài)的信息。
在步驟s402,使用訓(xùn)練樣本對第一卷積網(wǎng)絡(luò)模型進行訓(xùn)練,得到用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型。
上述步驟s401~步驟s402的步驟內(nèi)容與上述實施例二中的步驟內(nèi)容相同,在此不再贅述。
在步驟s403,獲取上述訓(xùn)練樣本的樣本圖像的特征向量。
其中,特征向量中包含有訓(xùn)練樣本的樣本圖像中的業(yè)務(wù)對象的位置信息和/或置信度信息,以及樣本圖像中人臉動作狀態(tài)對應(yīng)的人臉特征向量。
其中,每一張樣本圖像中人臉動作狀態(tài)可以是在對第一卷積網(wǎng)絡(luò)模型進行訓(xùn)練時確定。
在實施中,訓(xùn)練樣本的樣本圖像中存在一些不符合第二卷積網(wǎng)絡(luò)模型的訓(xùn)練標準的樣本圖像,需要通過對樣本圖像的預(yù)處理將這部分樣本圖像過濾掉。
首先,本實施例中,每張樣本圖像中都包含有業(yè)務(wù)對象,且每個業(yè)務(wù)對象都標注有位置信息和置信度信息。一種可行的實施方案中,將業(yè)務(wù)對象的中心點的位置信息作為該業(yè)務(wù)對象的位置信息。本步驟中,僅根據(jù)業(yè)務(wù)對象的位置信息對樣本圖像進行過濾。獲得位置信息指示的位置的坐標,將該坐標與預(yù)設(shè)的該類型的業(yè)務(wù)對象的位置坐標進行比對,計算二者的位置方差。若該位置方差小于或等于設(shè)定的閾值,則該樣本圖像可以作為待訓(xùn)練的樣本圖像;若該位置方差大于設(shè)定的閾值,則過濾掉該樣本圖像。其中,預(yù)設(shè)的位置坐標和設(shè)定的閾值均可以由本領(lǐng)域技術(shù)人員根據(jù)實際情況適當設(shè)置,例如,因為一般用于第二卷積網(wǎng)絡(luò)模型訓(xùn)練的圖像具有相同的大小,因此設(shè)定的閾值可以為圖像長或?qū)挼?/20~1/5,優(yōu)選地,可以為圖像長或?qū)挼?/10。
此外,還可以對確定的樣本圖像中的業(yè)務(wù)對象的位置和置信度進行平均,獲取平均位置和平均置信度,該平均位置和平均置信度可以作為后續(xù)確定收斂條件的依據(jù)。
當以業(yè)務(wù)對象為廣告貼紙為實例時,本實施例中用于訓(xùn)練的樣本圖像需要標注有最優(yōu)廣告位置的坐標和該廣告位的置信度。其中,最優(yōu)廣告位置可以在人臉、前背景等地方標注,因此可以實現(xiàn)面部特征點、前背景等地方的廣告位的聯(lián)合訓(xùn)練,這相對于基于面部動作等某一項技術(shù)單獨訓(xùn)練的方案,有利于節(jié)省計算資源。置信度的大小表示了這個廣告位是最優(yōu)廣告位的概率,例如,如果這個廣告位是被遮擋多,則置信度低。
在步驟s404,對特征向量進行卷積處理,獲取特征向量卷積結(jié)果。
需要說明的是,對該特征向量進行卷積處理時,既需要對樣本圖像中的業(yè)務(wù)對象的位置信息和/或置信度信息對應(yīng)的特征向量進行卷積處理,還需要對每一張樣本圖像中人臉特征點對應(yīng)的人臉特征向量進行卷積處理,分別得到相應(yīng)的特征向量卷積結(jié)果。
在步驟s405,判斷特征向量卷積結(jié)果中對應(yīng)的業(yè)務(wù)對象的位置信息和/或置信度信息是否滿足業(yè)務(wù)對象收斂條件,并判斷特征向量卷積結(jié)果中對應(yīng)的人臉特征向量是否滿足人臉收斂條件。
在步驟s406,若都滿足,則完成對第二卷積網(wǎng)絡(luò)模型的訓(xùn)練;否則,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對第二卷積網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的業(yè)務(wù)對象的位置信息和/或置信度信息以及人臉特征向量均滿足相應(yīng)的收斂條件。
在實施中,如果該特征向量卷積結(jié)果中對應(yīng)的業(yè)務(wù)對象的位置信息和/或置信度信息不滿足業(yè)務(wù)對象收斂條件,則根據(jù)特征向量卷積結(jié)果中對應(yīng)的業(yè)務(wù)對象的位置信息和/或置信度信息,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對第二卷積網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的業(yè)務(wù)對象的位置信息和/或置信度信息滿足業(yè)務(wù)對象收斂條件;如果該特征向量卷積結(jié)果中對應(yīng)的人臉特征向量不滿足人臉收斂條件,則根據(jù)特征向量卷積結(jié)果中對應(yīng)的人臉特征向量,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對第二卷積網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的人臉特征向量滿足人臉收斂條件。
上述步驟s404~步驟s406的具體處理可以參見上述實施例三中的相關(guān)內(nèi)容,在此不再贅述。
通過上述步驟s403~步驟s406的處理可以得到訓(xùn)練完成的第二卷積網(wǎng)絡(luò)模型。其中,第二卷積網(wǎng)絡(luò)模型的結(jié)構(gòu)可以參考上述實施例二中第一卷積網(wǎng)絡(luò)模型的結(jié)構(gòu),在此不再贅述。
通過上述訓(xùn)練得到的第一卷積網(wǎng)絡(luò)模型和第二卷積網(wǎng)絡(luò)模型可以對視頻圖像進行相應(yīng)的處理,具體可以包括以下步驟s407~步驟s411。
在步驟s407,獲取當前播放的包含人臉信息的視頻圖像。
在步驟s408,從視頻圖像中提取人臉關(guān)鍵點,使用預(yù)先訓(xùn)練的、用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型,并根據(jù)視頻圖像中人臉動作狀態(tài)確定視頻圖像中人臉的面部動作。
在步驟s409,當確定檢測到的面部動作與對應(yīng)的預(yù)定面部動作相匹配時,提取與檢測到的面部動作相應(yīng)的人臉區(qū)域內(nèi)的人臉特征點。
在步驟s410,根據(jù)人臉特征點,使用預(yù)先訓(xùn)練的、用于確定業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置的第二卷積網(wǎng)絡(luò)模型,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。
在步驟s411,在展現(xiàn)位置采用計算機繪圖方式繪制待展現(xiàn)的業(yè)務(wù)對象。
隨著互聯(lián)網(wǎng)直播和短視頻分享的興起,越來越多的視頻以直播或者短視頻的方式出現(xiàn)。這類視頻常常以人物為主角(單一人物或少量人物),以人物加簡單背景為主要場景,觀眾主要在手機等移動終端上觀看。在此情況下,對于某些業(yè)務(wù)對象的投放(如廣告投放)來說,一方面,由于移動終端的屏幕展示區(qū)域有限,如果以傳統(tǒng)的固定位置放置廣告,往往占用主要的用戶體驗區(qū)域,容易引起用戶反感;另一方面,對于主播類直播應(yīng)用,由于直播的即時性,傳統(tǒng)的插入固定時長的廣告會明顯打擾用戶與主播交流的連貫性,影響用戶觀看體驗;再一方面,對于短視頻廣告,由于直播或者短視頻的內(nèi)容時長本來就較短,也給采用傳統(tǒng)方式插入固定時長的廣告帶來了困難。而通過本實施例提供的方案,可以實時對視頻播放過程中的視頻圖像進行檢測,給出效果最優(yōu)的廣告投放位置,且不影響用戶的觀看體驗,投放效果更好;通過將業(yè)務(wù)對象與視頻播放相結(jié)合,從而無須通過網(wǎng)絡(luò)傳輸與視頻無關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;而且,業(yè)務(wù)對象與視頻圖像中的面部動作緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動作,又為視頻圖像增加了趣味性,同時還不會打擾用戶正常觀看視頻,從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務(wù)對象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對象的影響力。
實施例五
基于相同的技術(shù)構(gòu)思,圖5是示出根據(jù)本發(fā)明實施例五的視頻圖像的處理裝置的邏輯框圖。參照圖5,該視頻圖像的處理裝置包括視頻圖像檢測模塊501、展現(xiàn)位置確定模塊502和業(yè)務(wù)對象繪制模塊503。
視頻圖像檢測模塊501,用于對當前播放的包含人臉信息的視頻圖像進行人臉的面部動作檢測。
展現(xiàn)位置確定模塊502,用于當確定檢測到的面部動作與對應(yīng)的預(yù)定面部動作相匹配時,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。
業(yè)務(wù)對象繪制模塊503,用于在展現(xiàn)位置采用計算機繪圖方式繪制待展現(xiàn)的業(yè)務(wù)對象。
通過本實施例提供的視頻圖像的處理裝置,通過對當前播放的包含人臉信息的視頻圖像進行面部動作檢測,并將檢測到的面部動作與對應(yīng)的預(yù)定面部動作進行匹配,當兩者相匹配時,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置,進而將業(yè)務(wù)對象采用計算機繪圖方式繪制在展現(xiàn)位置,這樣當業(yè)務(wù)對象用于展示廣告時,與傳統(tǒng)的視頻廣告方式相比,一方面,該業(yè)務(wù)對象與視頻播放相結(jié)合,無須通過網(wǎng)絡(luò)傳輸與視頻無關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對象與視頻圖像中的面部動作緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動作,又為視頻圖像增加了趣味性,同時還不會打擾用戶正常觀看視頻,從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務(wù)對象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對象的影響力。
實施例六
基于相同的技術(shù)構(gòu)思,圖6是示出根據(jù)本發(fā)明實施例六的視頻圖像的處理裝置的邏輯框圖。
本實施例的視頻圖像的處理裝置包括:視頻圖像檢測模塊501,用于對當前播放的包含人臉信息的視頻圖像進行人臉的面部動作檢測。展現(xiàn)位置確定模塊502,用于當確定檢測到的面部動作與對應(yīng)的預(yù)定面部動作相匹配時,確定待展現(xiàn)的業(yè)務(wù)對象在該視頻圖像中的展現(xiàn)位置。業(yè)務(wù)對象繪制模塊503,用于在展現(xiàn)位置采用計算機繪圖方式繪制待展現(xiàn)的業(yè)務(wù)對象。
可選地,視頻圖像檢測模塊501,用于從當前播放的包含人臉信息的視頻圖像中提取人臉關(guān)鍵點,使用預(yù)先訓(xùn)練的、用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型,確定視頻圖像中人臉的面部動作的狀態(tài),并根據(jù)每張人臉的面部動作的狀態(tài)確定視頻圖像中人臉的面部動作。
可選地,該裝置還包括:訓(xùn)練樣本獲取模塊504,用于獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,其中,該樣本圖像包含被標注的人臉屬性的信息;第一卷積網(wǎng)絡(luò)模型確定模塊505,用于使用該訓(xùn)練樣本對該第一卷積網(wǎng)絡(luò)模型進行訓(xùn)練,得到用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型。
可選地,訓(xùn)練樣本獲取模塊504包括:樣本圖像獲取單元,用于獲取多張包括人臉信息的樣本圖像;人臉定位信息確定單元,用于對每張該樣本圖像,檢測樣本圖像中的人臉和人臉關(guān)鍵點,通過該人臉關(guān)鍵點將樣本圖像中的人臉進行定位,得到人臉定位信息;訓(xùn)練樣本確定單元,用于將包含該人臉定位信息的該樣本圖像作為訓(xùn)練樣本。
可選地,展現(xiàn)位置確定模塊502,包括:特征點提取單元,用于提取與檢測到的面部動作相應(yīng)的人臉區(qū)域內(nèi)的人臉特征點;展現(xiàn)位置確定單元,用于根據(jù)該人臉特征點,確定待展現(xiàn)的業(yè)務(wù)對象在該視頻圖像中的展現(xiàn)位置。
可選地,展現(xiàn)位置確定模塊502,用于根據(jù)該人臉特征點,使用預(yù)先訓(xùn)練的、用于確定業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置的第二卷積網(wǎng)絡(luò)模型,確定待展現(xiàn)的業(yè)務(wù)對象在該視頻圖像中的展現(xiàn)位置。
可選地,該裝置還包括:特征向量獲取模塊506,用于獲取訓(xùn)練樣本的樣本圖像的特征向量,其中,該特征向量中包含有樣本圖像中的業(yè)務(wù)對象的位置信息和/或置信度信息,以及樣本圖像中面部動作相應(yīng)的人臉區(qū)域內(nèi)的人臉特征點對應(yīng)的人臉特征向量;卷積模塊507,用于對該特征向量進行卷積處理,獲取特征向量卷積結(jié)果;收斂條件判斷模塊508,用于判斷特征向量卷積結(jié)果中對應(yīng)的業(yè)務(wù)對象的位置信息和/或置信度信息是否滿足業(yè)務(wù)對象收斂條件,并判斷特征向量卷積結(jié)果中對應(yīng)的人臉特征向量是否滿足人臉收斂條件;模型訓(xùn)練模塊509,用于若都滿足,則完成對第二卷積網(wǎng)絡(luò)模型的訓(xùn)練;否則,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對第二卷積網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的業(yè)務(wù)對象的位置信息和/或置信度信息以及人臉特征向量均滿足相應(yīng)的收斂條件。
可選地,展現(xiàn)位置確定模塊502,用于根據(jù)該人臉特征點和該待展現(xiàn)的業(yè)務(wù)對象的類型,確定待展現(xiàn)的業(yè)務(wù)對象在該視頻圖像中的展現(xiàn)位置。
可選地,展現(xiàn)位置確定模塊502包括:展現(xiàn)位置獲取單元,用于根據(jù)該人臉特征點和待展現(xiàn)的業(yè)務(wù)對象的類型,獲得待展現(xiàn)的業(yè)務(wù)對象在該視頻圖像中的多個展現(xiàn)位置;展現(xiàn)位置選擇單元,用于從該多個展現(xiàn)位置中選擇至少一個展現(xiàn)位置。
可選地,展現(xiàn)位置確定模塊502,用于從預(yù)先存儲的面部動作與展現(xiàn)位置的對應(yīng)關(guān)系中,獲取該預(yù)定面部動作對應(yīng)的目標展現(xiàn)位置作為該待展現(xiàn)的業(yè)務(wù)對象在該視頻圖像中的展現(xiàn)位置。
可選地,該業(yè)務(wù)對象為包含有語義信息的特效;視頻圖像為直播類視頻圖像。
可選地,業(yè)務(wù)對象包括包含廣告信息的以下至少一種形式的特效:二維貼紙?zhí)匦А⑷S特效、粒子特效。
可選地,展示位置包括以下至少之一:視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域為中心的設(shè)定范圍內(nèi)的區(qū)域、視頻圖像中預(yù)先設(shè)定的區(qū)域。
可選地,業(yè)務(wù)對象的類型包括以下至少之一:額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型。
可選地,人臉的面部動作包括以下至少之一:眨眼、親吻、張嘴、搖頭、點頭、笑、哭、皺眉、閉左/右/雙眼、嘟嘴。
通過本實施例提供的視頻圖像的處理裝置,通過對當前播放的包含人臉信息的視頻圖像進行面部動作檢測,并將檢測到的面部動作與對應(yīng)的預(yù)定面部動作進行匹配,當兩者相匹配時,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置,進而將業(yè)務(wù)對象采用計算機繪圖方式繪制在展現(xiàn)位置,這樣當業(yè)務(wù)對象用于展示廣告時,與傳統(tǒng)的視頻廣告方式相比,一方面,該業(yè)務(wù)對象與視頻播放相結(jié)合,無須通過網(wǎng)絡(luò)傳輸與視頻無關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對象與視頻圖像中的面部動作緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動作,又為視頻圖像增加了趣味性,同時還不會打擾用戶正常觀看視頻,從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務(wù)對象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對象的影響力。
實施例七
參照圖7,示出了根據(jù)本發(fā)明實施例七的一種終端設(shè)備的結(jié)構(gòu)示意圖,本發(fā)明具體實施例并不對終端設(shè)備的具體實現(xiàn)做限定。
如圖7所示,該終端設(shè)備可以包括:處理器(processor)702、通信接口(communicationsinterface)704、存儲器(memory)706、以及通信總線708。
其中:
處理器702、通信接口704、以及存儲器706通過通信總線708完成相互間的通信。
通信接口704,用于與其它設(shè)備比如其它客戶端或服務(wù)器等的網(wǎng)元通信。
處理器702,用于執(zhí)行程序710,具體可以執(zhí)行上述方法實施例中的相關(guān)步驟。
具體地,程序710可以包括程序代碼,該程序代碼包括計算機操作指令。
處理器710可能是中央處理器cpu,或者是特定集成電路asic(applicationspecificintegratedcircuit),或者是被配置成實施本發(fā)明實施例的一個或多個集成電路,或者是圖形處理器gpu(graphicsprocessingunit)。終端設(shè)備包括的一個或多個處理器,可以是同一類型的處理器,如一個或多個cpu,或者,一個或多個gpu;也可以是不同類型的處理器,如一個或多個cpu以及一個或多個gpu。
存儲器706,用于存放程序710。存儲器706可能包含高速ram存儲器,也可能還包括非易失性存儲器(non-volatilememory),例如至少一個磁盤存儲器。
程序710具體可以用于使得處理器702執(zhí)行以下操作:對當前播放的包含人臉信息的視頻圖像進行人臉的面部動作檢測;當確定檢測到的面部動作與對應(yīng)的預(yù)定面部動作相匹配時,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置;在展現(xiàn)位置采用計算機繪圖方式繪制待展現(xiàn)的業(yè)務(wù)對象。
在一種可選的實施方式中,程序710還用于使得處理器702在對當前播放的包含人臉信息的視頻圖像進行人臉的面部動作檢測,包括:從當前播放的包含人臉信息的視頻圖像中提取人臉關(guān)鍵點,使用預(yù)先訓(xùn)練的、用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型,確定視頻圖像中人臉的面部動作的狀態(tài),并根據(jù)每張人臉的面部動作的狀態(tài)確定視頻圖像中人臉的面部動作。
在一種可選的實施方式中,程序710還用于使得處理器702在對第一卷積網(wǎng)絡(luò)模型進行預(yù)先訓(xùn)練,包括:獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,其中,樣本圖像包含被標注的人臉屬性的信息;使用訓(xùn)練樣本對第一卷積網(wǎng)絡(luò)模型進行訓(xùn)練,得到用于檢測圖像中人臉動作狀態(tài)的第一卷積網(wǎng)絡(luò)模型。
在一種可選的實施方式中,程序710還用于使得處理器702在獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,包括:獲取多張包括人臉信息的樣本圖像;對每張樣本圖像,檢測樣本圖像中的人臉和人臉關(guān)鍵點,通過人臉關(guān)鍵點將樣本圖像中的人臉進行定位,得到人臉定位信息;將包含人臉定位信息的樣本圖像作為訓(xùn)練樣本。
在一種可選的實施方式中,程序710還用于使得處理器702在確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置,包括:提取與檢測到的面部動作相應(yīng)的人臉區(qū)域內(nèi)的人臉特征點;根據(jù)人臉特征點,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。
在一種可選的實施方式中,程序710還用于使得處理器702在根據(jù)人臉特征點,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置,包括:根據(jù)人臉特征點,使用預(yù)先訓(xùn)練的、用于確定業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置的第二卷積網(wǎng)絡(luò)模型,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。
在一種可選的實施方式中,程序710還用于使得處理器702在對第二卷積網(wǎng)絡(luò)模型的預(yù)先訓(xùn)練,包括:獲取訓(xùn)練樣本的樣本圖像的特征向量,其中,特征向量中包含有樣本圖像中的業(yè)務(wù)對象的位置信息和/或置信度信息,以及樣本圖像中面部動作相應(yīng)的人臉區(qū)域內(nèi)的人臉特征點對應(yīng)的人臉特征向量;對特征向量進行卷積處理,獲取特征向量卷積結(jié)果;判斷特征向量卷積結(jié)果中對應(yīng)的業(yè)務(wù)對象的位置信息和/或置信度信息是否滿足業(yè)務(wù)對象收斂條件,并判斷特征向量卷積結(jié)果中對應(yīng)的人臉特征向量是否滿足人臉收斂條件;若都滿足,則完成對第二卷積網(wǎng)絡(luò)模型的訓(xùn)練;否則,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對第二卷積網(wǎng)絡(luò)模型進行迭代訓(xùn)練,直至迭代訓(xùn)練后的業(yè)務(wù)對象的位置信息和/或置信度信息以及人臉特征向量均滿足相應(yīng)的收斂條件。
在一種可選的實施方式中,程序710還用于使得處理器702在根據(jù)人臉特征點,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置,包括:根據(jù)人臉特征點和待展現(xiàn)的業(yè)務(wù)對象的類型,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。
在一種可選的實施方式中,程序710還用于使得處理器702在根據(jù)人臉特征點和待展現(xiàn)的業(yè)務(wù)對象的類型,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置,包括:根據(jù)人臉特征點和待展現(xiàn)的業(yè)務(wù)對象的類型,獲得待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的多個展現(xiàn)位置;從多個展現(xiàn)位置中選擇至少一個展現(xiàn)位置。
在一種可選的實施方式中,程序710還用于使得處理器702在確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置,包括:從預(yù)先存儲的面部動作與展現(xiàn)位置的對應(yīng)關(guān)系中,獲取預(yù)定面部動作對應(yīng)的目標展現(xiàn)位置作為待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置。
在一種可選的實施方式中,業(yè)務(wù)對象為包含有語義信息的特效;視頻圖像為直播類視頻圖像。
在一種可選的實施方式中,業(yè)務(wù)對象包括包含廣告信息的以下至少一種形式的特效:二維貼紙?zhí)匦?、三維特效、粒子特效。
在一種可選的實施方式中,展示位置包括以下至少之一:視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域為中心的設(shè)定范圍內(nèi)的區(qū)域、視頻圖像中預(yù)先設(shè)定的區(qū)域。
在一種可選的實施方式中,業(yè)務(wù)對象的類型包括以下至少之一:額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型。
在一種可選的實施方式中,人臉的面部動作包括以下至少之一:眨眼、親吻、張嘴、搖頭、點頭、笑、哭、皺眉、閉左/右/雙眼、嘟嘴。
通過本實施例提供的終端設(shè)備,通過對當前播放的包含人臉信息的視頻圖像進行面部動作檢測,并將檢測到的面部動作與對應(yīng)的預(yù)定面部動作進行匹配,當兩者相匹配時,確定待展現(xiàn)的業(yè)務(wù)對象在視頻圖像中的展現(xiàn)位置,進而將業(yè)務(wù)對象采用計算機繪圖方式繪制在展現(xiàn)位置,這樣當業(yè)務(wù)對象用于展示廣告時,與傳統(tǒng)的視頻廣告方式相比,一方面,該業(yè)務(wù)對象與視頻播放相結(jié)合,無須通過網(wǎng)絡(luò)傳輸與視頻無關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對象與視頻圖像中的面部動作緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動作,又為視頻圖像增加了趣味性,同時還不會打擾用戶正常觀看視頻,從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務(wù)對象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對象的影響力。
需要指出,根據(jù)實施的需要,可將本申請中描述的各個步驟/部件拆分為更多步驟/部件,也可將兩個或多個步驟/部件或者步驟/部件的部分操作組合成新的步驟/部件,以實現(xiàn)本發(fā)明的目的。
上述根據(jù)本發(fā)明的方法可在硬件、固件中實現(xiàn),或者被實現(xiàn)為可存儲在記錄介質(zhì)(諸如cdrom、ram、軟盤、硬盤或磁光盤)中的軟件或計算機代碼,或者被實現(xiàn)通過網(wǎng)絡(luò)下載的原始存儲在遠程記錄介質(zhì)或非暫時機器可讀介質(zhì)中并將被存儲在本地記錄介質(zhì)中的計算機代碼,從而在此描述的方法可被存儲在使用通用計算機、專用處理器或者可編程或?qū)S糜布?諸如asic或fpga)的記錄介質(zhì)上的這樣的軟件處理??梢岳斫猓嬎銠C、處理器、微處理器控制器或可編程硬件包括可存儲或接收軟件或計算機代碼的存儲組件(例如,ram、rom、閃存等),當所述軟件或計算機代碼被計算機、處理器或硬件訪問且執(zhí)行時,實現(xiàn)在此描述的處理方法。此外,當通用計算機訪問用于實現(xiàn)在此示出的處理的代碼時,代碼的執(zhí)行將通用計算機轉(zhuǎn)換為用于執(zhí)行在此示出的處理的專用計算機。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準。