本發(fā)明涉及信息處理技術(shù),尤其涉及一種視頻圖像的處理方法、裝置和終端設(shè)備。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們?cè)絹?lái)越多地使用互聯(lián)網(wǎng)觀看視頻,由此,互聯(lián)網(wǎng)視頻為許多新的業(yè)務(wù)提供了商機(jī)。因?yàn)榛ヂ?lián)網(wǎng)視頻可以成為重要的業(yè)務(wù)流量入口,因而被認(rèn)為是廣告植入的優(yōu)質(zhì)資源。
現(xiàn)有視頻廣告主要通過(guò)植入的方式,在視頻播放的某個(gè)時(shí)間插入固定時(shí)長(zhǎng)的廣告,或在視頻播放的區(qū)域及其周邊區(qū)域固定位置放置廣告。
但是,一方面,這種視頻廣告方式不但占用網(wǎng)絡(luò)資源,也占用客戶端的系統(tǒng)資源;另一方面,這種視頻廣告方式往往打擾觀眾的正常視頻觀看體驗(yàn),引起觀眾反感,不能達(dá)到預(yù)想的廣告效果。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于,提供一種視頻圖像處理的方案。
根據(jù)本發(fā)明實(shí)施例的一方面,提供一種視頻圖像的處理方法。所述方法包括,對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行人臉的面部表情檢測(cè);當(dāng)確定檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情相匹配時(shí),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置;在所述展現(xiàn)位置采用計(jì)算機(jī)繪圖方式繪制所述業(yè)務(wù)對(duì)象。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行人臉的面部表情檢測(cè),包括:基于當(dāng)前播放的包含人臉信息的視頻圖像中的人臉信息,使用預(yù)先訓(xùn)練的、用于檢測(cè)圖像中人臉屬性的第一卷積網(wǎng)絡(luò)模型,對(duì)所述視頻圖像進(jìn)行人臉的面部表情檢測(cè)。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,對(duì)所述第一卷積網(wǎng)絡(luò)模型進(jìn)行預(yù)先訓(xùn)練,包括:獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,其中,所述樣本圖像包含被標(biāo)注的人臉屬性的信息;對(duì)所述人臉屬性中具有大小順序特征的屬性進(jìn)行編碼;將編碼后的屬性作為訓(xùn)練所述第一卷積網(wǎng)絡(luò)模型的監(jiān)督信息,使用所述訓(xùn)練樣本對(duì)所述第一卷積網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到用于檢測(cè)圖像中人臉屬性的第一卷積網(wǎng)絡(luò)模型。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,包括:獲取多張包括人臉信息的樣本圖像;對(duì)每張所述樣本圖像,檢測(cè)樣本圖像中的人臉和人臉關(guān)鍵點(diǎn),通過(guò)所述人臉關(guān)鍵點(diǎn)將樣本圖像中的人臉進(jìn)行定位,得到人臉定位信息;將包含所述人臉定位信息的所述樣本圖像作為訓(xùn)練樣本。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述確定待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置,包括:提取與檢測(cè)到的面部表情相應(yīng)的人臉區(qū)域內(nèi)人臉屬性的特征點(diǎn);根據(jù)所述人臉屬性的特征點(diǎn),確定所述待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述根據(jù)所述人臉屬性的特征點(diǎn),確定所述待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置,包括:根據(jù)所述人臉屬性的特征點(diǎn),使用預(yù)先訓(xùn)練的、用于確定業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置的第二卷積網(wǎng)絡(luò)模型,確定所述待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,對(duì)所述第二卷積網(wǎng)絡(luò)模型的預(yù)先訓(xùn)練,包括:獲取訓(xùn)練樣本的樣本圖像的特征向量,其中,所述特征向量中包含有所述樣本圖像中的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息,以及樣本圖像中人臉屬性對(duì)應(yīng)的人臉特征向量;對(duì)所述特征向量進(jìn)行卷積處理,獲取特征向量卷積結(jié)果;判斷所述特征向量卷積結(jié)果中對(duì)應(yīng)的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息是否滿足業(yè)務(wù)對(duì)象收斂條件,并判斷所述特征向量卷積結(jié)果中對(duì)應(yīng)的人臉特征向量是否滿足人臉收斂條件;若都滿足,則完成對(duì)所述第二卷積網(wǎng)絡(luò)模型的訓(xùn)練;否則,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對(duì)第二卷積網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,直至迭代訓(xùn)練后的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息以及所述人臉特征向量均滿足相應(yīng)的收斂條件。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述根據(jù)所述人臉屬性的特征點(diǎn),確定所述待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置,包括:根據(jù)所述人臉屬性的特征點(diǎn)和所述待展現(xiàn)的業(yè)務(wù)對(duì)象的類(lèi)型,確定待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,根據(jù)所述人臉屬性的特征點(diǎn)和所述待展現(xiàn)的業(yè)務(wù)對(duì)象的類(lèi)型,確定待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置,包括:根據(jù)所述人臉屬性的特征點(diǎn)和所述待展現(xiàn)的業(yè)務(wù)對(duì)象的類(lèi)型,獲得待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的多個(gè)展現(xiàn)位置;從所述多個(gè)展現(xiàn)位置中選擇至少一個(gè)展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述確定待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置,包括:從預(yù)先存儲(chǔ)的面部表情與展現(xiàn)位置的對(duì)應(yīng)關(guān)系中,獲取所述預(yù)定面部表情對(duì)應(yīng)的目標(biāo)展現(xiàn)位置作為所述待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述業(yè)務(wù)對(duì)象為包含有語(yǔ)義信息的特效;所述視頻圖像為直播類(lèi)視頻圖像。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述業(yè)務(wù)對(duì)象包括包含廣告信息的以下至少一種形式的特效:二維貼紙?zhí)匦?、三維特效、粒子特效。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述展現(xiàn)位置包括以下至少之一:視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域?yàn)橹行牡脑O(shè)定范圍內(nèi)的區(qū)域、視頻圖像中預(yù)先設(shè)定的區(qū)域。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述業(yè)務(wù)對(duì)象的類(lèi)型包括以下至少之一:額頭貼片類(lèi)型、臉頰貼片類(lèi)型、下巴貼片類(lèi)型、虛擬帽子類(lèi)型、虛擬服裝類(lèi)型、虛擬妝容類(lèi)型、虛擬頭飾類(lèi)型、虛擬發(fā)飾類(lèi)型、虛擬首飾類(lèi)型。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述面部表情包括以下至少之一:開(kāi)心、憤怒、痛苦和悲傷。
根據(jù)本發(fā)明實(shí)施例的另一方面,提供一種視頻圖像的處理裝置。所述裝置包括:視頻圖像檢測(cè)模塊,用于對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行人臉的面部表情檢測(cè);展現(xiàn)位置確定模塊,用于當(dāng)確定檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情相匹配時(shí),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置;業(yè)務(wù)對(duì)象繪制模塊,用于在所述展現(xiàn)位置采用計(jì)算機(jī)繪圖方式繪制所述業(yè)務(wù)對(duì)象。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述視頻圖像檢測(cè)模塊,用于基于當(dāng)前播放的包含人臉信息的視頻圖像中的人臉信息,使用預(yù)先訓(xùn)練的、用于檢測(cè)圖像中人臉屬性的第一卷積網(wǎng)絡(luò)模型,對(duì)所述視頻圖像進(jìn)行人臉的面部表情檢測(cè)。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述裝置還包括:訓(xùn)練樣本獲取模塊,用于獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,其中,所述樣本圖像包含被標(biāo)注的人臉屬性的信息;編碼模塊,用于對(duì)所述人臉屬性中具有大小順序特征的屬性進(jìn)行編碼;第一卷積網(wǎng)絡(luò)模型確定模塊,用于將編碼后的屬性作為訓(xùn)練所述第一卷積網(wǎng)絡(luò)模型的監(jiān)督信息,使用所述訓(xùn)練樣本對(duì)所述第一卷積網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到用于檢測(cè)圖像中人臉屬性的第一卷積網(wǎng)絡(luò)模型。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述訓(xùn)練樣本獲取模塊,包括:樣本圖像獲取單元,用于獲取多張包括人臉信息的樣本圖像;人臉定位信息確定單元,用于對(duì)每張所述樣本圖像,檢測(cè)樣本圖像中的人臉和人臉關(guān)鍵點(diǎn),通過(guò)所述人臉關(guān)鍵點(diǎn)將樣本圖像中的人臉進(jìn)行定位,得到人臉定位信息;訓(xùn)練樣本確定單元,用于將包含所述人臉定位信息的所述樣本圖像作為訓(xùn)練樣本。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述展現(xiàn)位置確定模塊,包括:特征點(diǎn)提取單元,用于提取與檢測(cè)到的面部表情相應(yīng)的人臉區(qū)域內(nèi)人臉屬性的特征點(diǎn);展現(xiàn)位置確定單元,用于根據(jù)所述人臉屬性的特征點(diǎn),確定所述待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述展現(xiàn)位置確定模塊,用于根據(jù)所述人臉屬性的特征點(diǎn),使用預(yù)先訓(xùn)練的、用于確定業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置的第二卷積網(wǎng)絡(luò)模型,確定所述待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述裝置還包括:特征向量獲取模塊,用于獲取訓(xùn)練樣本的樣本圖像的特征向量,其中,所述特征向量中包含有所述樣本圖像中的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息,以及樣本圖像中人臉屬性對(duì)應(yīng)的人臉特征向量;卷積模塊,用于對(duì)所述特征向量進(jìn)行卷積處理,獲取特征向量卷積結(jié)果;收斂條件判斷模塊,用于判斷所述特征向量卷積結(jié)果中對(duì)應(yīng)的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息是否滿足業(yè)務(wù)對(duì)象收斂條件,并判斷所述特征向量卷積結(jié)果中對(duì)應(yīng)的人臉特征向量是否滿足人臉收斂條件;模型訓(xùn)練模塊,用于若都滿足,則完成對(duì)所述第二卷積網(wǎng)絡(luò)模型的訓(xùn)練;否則,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對(duì)第二卷積網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,直至迭代訓(xùn)練后的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息以及所述人臉特征向量均滿足相應(yīng)的收斂條件。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述展現(xiàn)位置確定模塊,用于根據(jù)所述人臉屬性的特征點(diǎn)和所述待展現(xiàn)的業(yè)務(wù)對(duì)象的類(lèi)型,確定待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述展現(xiàn)位置確定模塊,包括:展現(xiàn)位置獲取單元,用于根據(jù)所述人臉屬性的特征點(diǎn)和所述待展現(xiàn)的業(yè)務(wù)對(duì)象的類(lèi)型,獲得待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的多個(gè)展現(xiàn)位置;展現(xiàn)位置選擇單元,用于從所述多個(gè)展現(xiàn)位置中選擇至少一個(gè)展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述展現(xiàn)位置確定模塊,用于從預(yù)先存儲(chǔ)的面部表情與展現(xiàn)位置的對(duì)應(yīng)關(guān)系中,獲取所述預(yù)定面部表情對(duì)應(yīng)的目標(biāo)展現(xiàn)位置作為所述待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述業(yè)務(wù)對(duì)象為包含有語(yǔ)義信息的特效;所述視頻圖像為直播類(lèi)視頻圖像。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述業(yè)務(wù)對(duì)象包括包含廣告信息的以下至少一種形式的特效:二維貼紙?zhí)匦А⑷S特效、粒子特效。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述展現(xiàn)位置包括以下至少之一:視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域?yàn)橹行牡脑O(shè)定范圍內(nèi)的區(qū)域、視頻圖像中預(yù)先設(shè)定的區(qū)域。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述業(yè)務(wù)對(duì)象的類(lèi)型包括以下至少之一:額頭貼片類(lèi)型、臉頰貼片類(lèi)型、下巴貼片類(lèi)型、虛擬帽子類(lèi)型、虛擬服裝類(lèi)型、虛擬妝容類(lèi)型、虛擬頭飾類(lèi)型、虛擬發(fā)飾類(lèi)型、虛擬首飾類(lèi)型。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述面部表情包括以下至少之一:開(kāi)心、憤怒、痛苦和悲傷。
根據(jù)本發(fā)明實(shí)施例的又一方面,提供一種終端設(shè)備。所述終端設(shè)備包括:處理器、存儲(chǔ)器、通信接口和通信總線,所述處理器、所述存儲(chǔ)器和所述通信接口通過(guò)所述通信總線完成相互間的通信;所述存儲(chǔ)器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行如上述提供的視頻圖像的處理方法對(duì)應(yīng)的操作。
根據(jù)本發(fā)明實(shí)施例的又一方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有:用于對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行人臉的面部表情檢測(cè)的可執(zhí)行指令;用于當(dāng)確定檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情相匹配時(shí),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在所述視頻圖像中的展現(xiàn)位置的可執(zhí)行指令;用于在所述展現(xiàn)位置繪制所述業(yè)務(wù)對(duì)象的可執(zhí)行指令。
根據(jù)本發(fā)明實(shí)施例提供的視頻圖像的處理方法、裝置和終端設(shè)備,通過(guò)對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行面部表情檢測(cè),并將檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情進(jìn)行匹配,當(dāng)兩者相匹配時(shí),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置,進(jìn)而在該展現(xiàn)位置采用計(jì)算機(jī)繪圖的方式繪制業(yè)務(wù)對(duì)象,這樣當(dāng)業(yè)務(wù)對(duì)象用于展示廣告時(shí),與傳統(tǒng)的視頻廣告方式相比,一方面,該業(yè)務(wù)對(duì)象與視頻播放相結(jié)合,無(wú)須通過(guò)網(wǎng)絡(luò)傳輸與視頻無(wú)關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對(duì)象與視頻圖像中的面部表情緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動(dòng)作,又為視頻圖像增加了趣味性,同時(shí)還不會(huì)打擾用戶正常觀看視頻,從而可以減少用戶對(duì)視頻圖像中展現(xiàn)的業(yè)務(wù)對(duì)象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對(duì)象的影響力。
附圖說(shuō)明
圖1是示出根據(jù)本發(fā)明實(shí)施例一的一種視頻圖像的處理方法的流程圖;
圖2是示出根據(jù)本發(fā)明實(shí)施例二的一種第一卷積網(wǎng)絡(luò)模型的獲取方法的流程圖;
圖3是示出根據(jù)本發(fā)明實(shí)施例二的一種第一卷積網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖;
圖4是示出根據(jù)本發(fā)明實(shí)施例三的一種視頻圖像的處理方法的流程圖;
圖5是示出根據(jù)本發(fā)明實(shí)施例四的一種視頻圖像的處理方法的流程圖;
圖6是示出根據(jù)本發(fā)明實(shí)施例五的一種視頻圖像的處理裝置的結(jié)構(gòu)框圖;
圖7是示出根據(jù)本發(fā)明實(shí)施例六的一種視頻圖像的處理裝置的結(jié)構(gòu)框圖;
圖8是示出根據(jù)本發(fā)明實(shí)施例七的一種終端設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖詳細(xì)描述本發(fā)明的示例性實(shí)施例。
實(shí)施例一
圖1是示出根據(jù)本發(fā)明實(shí)施例一的視頻圖像的處理方法的流程圖。通過(guò)包括視頻圖像的處理裝置的計(jì)算機(jī)系統(tǒng)執(zhí)行所述方法。
參照?qǐng)D1,在步驟s110,對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行人臉的面部表情檢測(cè)。
其中,人臉信息可以包括與面部、眼睛、鼻子和/或頭發(fā)等相關(guān)的信息。視頻圖像可以是正在直播的直播視頻的圖像,也可以是已錄制完成的視頻中的視頻圖像等。面部表情包括但不限于開(kāi)心、憤怒、痛苦、悲傷等。
在實(shí)施中,以視頻直播為例,目前,視頻直播平臺(tái)包括多個(gè),如花椒直播平臺(tái)、yy直播平臺(tái)等,每一個(gè)直播平臺(tái)包括有多個(gè)直播房間,而每個(gè)直播房間中會(huì)包括至少一個(gè)主播,主播可以通過(guò)終端設(shè)備的攝像頭向其所在的直播房間中的粉絲直播視頻圖像。上述視頻圖像中的主體通常為一個(gè)主要人物(即主播)和簡(jiǎn)單的背景,主播常常在視頻圖像中所占的區(qū)域較大。當(dāng)需要在視頻直播的過(guò)程中插入業(yè)務(wù)對(duì)象(如廣告等)時(shí),可以獲取當(dāng)前視頻直播過(guò)程中的視頻圖像,然后,可以通過(guò)預(yù)先設(shè)置的人臉檢測(cè)機(jī)制對(duì)該視頻圖像進(jìn)行人臉檢測(cè),以判斷該視頻圖像中是否包括主播的人臉信息,如果包括,則獲取或記錄該視頻圖像,如果不包括,則可以繼續(xù)對(duì)下一幀視頻圖像執(zhí)行上述相關(guān)處理,以得到包括主播的人臉信息的視頻圖像。
此外,視頻圖像還可以是已錄制完成的短視頻中的視頻圖像,對(duì)于此種情況,用戶可以使用其終端設(shè)備播放該短視頻,在播放的過(guò)程中,終端設(shè)備可以檢測(cè)每一幀視頻圖像中是否包括主播的人臉信息,如果包括,則獲取該視頻圖像,如果不包括,則可以丟棄該視頻圖像或者不對(duì)該視頻圖像做任何處理,并獲取下一幀視頻圖像繼續(xù)進(jìn)行上述處理。
播放視頻圖像的終端設(shè)備或者主播使用的終端設(shè)備中設(shè)置有對(duì)視頻圖像進(jìn)行人臉的面部表情檢測(cè)的機(jī)制,通過(guò)該機(jī)制可以對(duì)當(dāng)前播放的包括人臉信息的每一幀視頻圖像進(jìn)行檢測(cè),得到從視頻圖像中檢測(cè)到的人臉的面部表情,一種可行的處理過(guò)程可以為,終端設(shè)備獲取當(dāng)前正在播放的一幀視頻圖像,通過(guò)預(yù)先設(shè)定的機(jī)制可以從該視頻圖像中截取出包括人臉區(qū)域的圖像,然后,可以對(duì)人臉區(qū)域的圖像進(jìn)行分析和特征提取,得到人臉區(qū)域中各個(gè)部位(包括眼睛、嘴和面部等)的特征數(shù)據(jù),通過(guò)對(duì)該特征數(shù)據(jù)的分析,確定視頻圖像中人臉的面部表情屬于開(kāi)心、憤怒、痛苦、悲傷等表情中的哪一種。
在步驟s120,當(dāng)確定檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情相匹配時(shí),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。
其中,業(yè)務(wù)對(duì)象是根據(jù)一定的業(yè)務(wù)需求而創(chuàng)建的對(duì)象,例如廣告等。展現(xiàn)位置可以是視頻圖像中指定區(qū)域的中心位置,或者可以是上述指定區(qū)域中多個(gè)邊緣位置的坐標(biāo)等。
在實(shí)施中,可以預(yù)先存儲(chǔ)多種不同的面部表情的特征數(shù)據(jù),并對(duì)不同的面部表情進(jìn)行相應(yīng)的標(biāo)記,以區(qū)分各個(gè)面部表情所代表的含義。通過(guò)上述步驟s110的處理可以從視頻圖像中檢測(cè)到人臉的面部表情,可以將檢測(cè)到的人臉的面部表情分別與預(yù)先存儲(chǔ)的每一種面部表情進(jìn)行比對(duì),如果預(yù)先存儲(chǔ)的多種不同的面部表情中包括與檢測(cè)到人臉的面部表情相同的面部表情,則可以確定檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情相匹配。
為了提高匹配的準(zhǔn)確度,可以通過(guò)計(jì)算的方式確定上述匹配結(jié)果,例如,可以設(shè)置匹配算法計(jì)算任意兩個(gè)面部表情之間的匹配度,例如,可以使用檢測(cè)到人臉的面部表情的特征數(shù)據(jù)和預(yù)先存儲(chǔ)的任一種面部表情的特征數(shù)據(jù)進(jìn)行匹配計(jì)算,得到兩者之間的匹配度數(shù)值,通過(guò)上述方式分別計(jì)算得到檢測(cè)到的人臉的面部表情與預(yù)先存儲(chǔ)的每一種面部表情之間的匹配度數(shù)值,從得到的匹配度數(shù)值中選取最大的匹配度數(shù)值,如果該最大的匹配度數(shù)值超過(guò)預(yù)定的匹配閾值,則可以確定最大的匹配度數(shù)值對(duì)應(yīng)的預(yù)先存儲(chǔ)的面部表情與檢測(cè)到的面部表情相匹配。如果該最大的匹配度數(shù)值未超過(guò)預(yù)定的匹配閾值,則匹配失敗,即檢測(cè)到的面部表情不是預(yù)定面部表情,此時(shí),可以繼續(xù)執(zhí)行上述步驟s110的處理。
進(jìn)一步地,當(dāng)確定檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情相匹配時(shí),可以先確定匹配到的面部表情所代表的含義,可以在預(yù)先設(shè)定的多個(gè)展現(xiàn)位置中選取與其含義相關(guān)或相應(yīng)的展現(xiàn)位置作為待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。例如,以視頻直播為例,當(dāng)檢測(cè)到主播開(kāi)心的面部表情時(shí),可以將面部區(qū)域或背景區(qū)域選取為與其相關(guān)或相應(yīng)的展現(xiàn)位置。
在步驟s130,在展現(xiàn)位置采用計(jì)算機(jī)繪圖方式繪制業(yè)務(wù)對(duì)象。
例如,以視頻直播為例,當(dāng)檢測(cè)到主播開(kāi)心的面部表情時(shí),可以在視頻圖像中主播的面部所在的區(qū)域內(nèi)采用計(jì)算機(jī)繪圖方式繪制相應(yīng)的業(yè)務(wù)對(duì)象(如帶有預(yù)定商品標(biāo)識(shí)的圖片廣告等),如果粉絲對(duì)該業(yè)務(wù)對(duì)象感興趣,則可以點(diǎn)擊該業(yè)務(wù)對(duì)象所在的區(qū)域,粉絲的終端設(shè)備可以獲取該業(yè)務(wù)對(duì)象對(duì)應(yīng)的網(wǎng)絡(luò)鏈接,并通過(guò)該網(wǎng)絡(luò)鏈接進(jìn)入與該業(yè)務(wù)對(duì)象相關(guān)的頁(yè)面,粉絲可以在該頁(yè)面中獲取與該業(yè)務(wù)對(duì)象相關(guān)的資源。
其中,對(duì)業(yè)務(wù)對(duì)象采用計(jì)算機(jī)繪圖方式繪制可以通過(guò)適當(dāng)?shù)挠?jì)算機(jī)圖形圖像繪制或渲染等方式實(shí)現(xiàn),包括但不限于:基于opengl圖形繪制引擎進(jìn)行繪制等。opengl定義了一個(gè)跨編程語(yǔ)言、跨平臺(tái)的編程接口規(guī)格的專(zhuān)業(yè)的圖形程序接口,其與硬件無(wú)關(guān),可以方便地進(jìn)行2d或3d圖形圖像的繪制。通過(guò)opengl,不僅可以實(shí)現(xiàn)2d效果如2d貼紙的繪制,還可以實(shí)現(xiàn)3d特效的繪制及粒子特效的繪制等等。但不限于opengl,其它方式,如unity或opencl等也同樣適用。
本發(fā)明實(shí)施例提供的視頻圖像的處理方法,通過(guò)對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行面部表情檢測(cè),并將檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情進(jìn)行匹配,當(dāng)兩者相匹配時(shí),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置,進(jìn)而在該展現(xiàn)位置采用計(jì)算機(jī)繪圖的方式繪制業(yè)務(wù)對(duì)象,這樣當(dāng)業(yè)務(wù)對(duì)象用于展示廣告時(shí),與傳統(tǒng)的視頻廣告方式相比,一方面,該業(yè)務(wù)對(duì)象與視頻播放相結(jié)合,無(wú)須通過(guò)網(wǎng)絡(luò)傳輸與視頻無(wú)關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對(duì)象與視頻圖像中的面部表情緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動(dòng)作,又為視頻圖像增加了趣味性,同時(shí)還不會(huì)打擾用戶正常觀看視頻,從而可以減少用戶對(duì)視頻圖像中展現(xiàn)的業(yè)務(wù)對(duì)象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對(duì)象的影響力。
實(shí)施例二
圖2是示出根據(jù)本發(fā)明實(shí)施例二的第一卷積網(wǎng)絡(luò)模型的獲取方法的流程圖。
上述實(shí)施例一中步驟s110的對(duì)視頻圖像進(jìn)行人臉的面部表情檢測(cè)的處理可以采用相應(yīng)的特征提取算法或者使用神經(jīng)網(wǎng)絡(luò)模型如卷積網(wǎng)絡(luò)模型等實(shí)現(xiàn)。本實(shí)施例中以卷積網(wǎng)絡(luò)模型為例,對(duì)視頻圖像進(jìn)行人臉的面部表情檢測(cè),為此,可以預(yù)先訓(xùn)練用于檢測(cè)圖像中人臉屬性的第一卷積網(wǎng)絡(luò)模型。
本實(shí)施例的視頻圖像的處理方法可以由任意具有數(shù)據(jù)采集、處理和傳輸功能的設(shè)備執(zhí)行,包括但不限于移動(dòng)終端和pc等,本發(fā)明實(shí)施對(duì)此不做限定。
參照?qǐng)D2,首先,為了對(duì)第一卷積網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,可以通過(guò)多種方式獲取訓(xùn)練樣本,該訓(xùn)練樣本可以是多張包括人臉信息的樣本圖像,而且,該樣本圖像中包含有被標(biāo)注的人臉屬性的信息。具體處理可以參見(jiàn)下述步驟s210~步驟s230。
在步驟s210,獲取多張包括人臉信息的樣本圖像,其中,樣本圖像包含被標(biāo)注的人臉屬性的信息。
其中,人臉屬性可包括局部屬性和全局屬性,其中,局部屬性包括但不限于頭發(fā)顏色、頭發(fā)長(zhǎng)短、眉毛長(zhǎng)短、眉毛濃密或稀疏、眼睛大小、眼睛睜開(kāi)或閉合、鼻梁高低、嘴巴大小、嘴巴張開(kāi)或閉合、是否佩戴眼鏡、是否戴口罩等,全局屬性包括但不限于人種、性別、年齡和表情等。樣本圖像可以是視頻或連續(xù)拍攝的多張圖像,也可以是任意圖像(其中可包括包含人臉的圖像和不包含人臉的圖像等)。
在實(shí)施中,由于圖像的分辨率越大其數(shù)據(jù)量也就越大,進(jìn)行人臉屬性檢測(cè)時(shí),所需要的計(jì)算資源越多,檢測(cè)速度越慢,鑒于此,在本發(fā)明的一種具體實(shí)現(xiàn)方式中,上述樣本圖像可以是滿足預(yù)設(shè)分辨率條件的圖像。例如,上述預(yù)設(shè)分辨率條件可以是:圖像的最長(zhǎng)邊不超過(guò)640個(gè)像素點(diǎn),最短邊不超過(guò)480個(gè)像素點(diǎn)等等。
樣本圖像可以是通過(guò)圖像采集設(shè)備得到,其中,用于采集用戶的人臉信息的圖像采集設(shè)備可以是專(zhuān)用相機(jī)或集成在其他設(shè)備中的相機(jī)等。然而,實(shí)際應(yīng)用中由于圖像采集設(shè)備的硬件參數(shù)不同、設(shè)置不同等等,所采集的圖像可能不滿足上述預(yù)設(shè)分辨率條件,為得到滿足上述預(yù)設(shè)分辨率條件的樣本圖像,在本發(fā)明的一種可選實(shí)現(xiàn)方式中,還可以在圖像采集設(shè)備采集到圖像之后,對(duì)所采集到的圖像進(jìn)行縮放處理,以獲得符合條件的樣本圖像。
得到樣本圖像后,可以在每張樣本圖像中標(biāo)注人臉屬性的信息,例如開(kāi)心、痛苦等,可以將每張樣本圖像中被標(biāo)注的人臉屬性的信息與該樣本圖像作為訓(xùn)練數(shù)據(jù)存儲(chǔ)。
為了使得對(duì)樣本圖像中的人臉屬性的檢測(cè)更加準(zhǔn)確,可以對(duì)樣本圖像中的人臉進(jìn)行定位,從而得到樣本圖像中人臉的準(zhǔn)確位置,具體可參見(jiàn)下述步驟s220的處理。
在步驟s220,對(duì)每張樣本圖像,檢測(cè)樣本圖像中的人臉和人臉關(guān)鍵點(diǎn),通過(guò)人臉關(guān)鍵點(diǎn)將樣本圖像中的人臉進(jìn)行定位,得到人臉定位信息。
在實(shí)施中,每張人臉都有一定的特征點(diǎn),比如眼角、眉毛的末端、嘴角、鼻尖等特征點(diǎn),再比如人臉的邊界點(diǎn)等,在獲得了人臉關(guān)鍵點(diǎn)(即關(guān)鍵特征點(diǎn))后,通過(guò)人臉關(guān)鍵點(diǎn)可以計(jì)算該樣本圖像中的人臉到預(yù)先設(shè)定的標(biāo)準(zhǔn)人臉的映射或者相似變換,將該樣本圖像中的人臉與上述標(biāo)準(zhǔn)人臉對(duì)齊,從而將樣本圖像中的人臉進(jìn)行定位,得到樣本圖像中人臉的定位信息。
在步驟s230,將包含人臉定位信息的樣本圖像作為訓(xùn)練樣本。
為了使得訓(xùn)練得到的第一卷積網(wǎng)絡(luò)模型輸出的檢測(cè)結(jié)果更加準(zhǔn)確,可以預(yù)先設(shè)置對(duì)第一卷積網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練的監(jiān)督信息,具體可參見(jiàn)下述步驟s240的處理。
在步驟s240,對(duì)人臉屬性中具有大小順序特征的屬性進(jìn)行編碼。
其中,大小順序的特征的屬性可以為年齡、兩眼睛之間的距離等。
在實(shí)施中,以年齡為例,設(shè)定標(biāo)準(zhǔn)年齡a,其編碼可以為以下幾種形式之一或者其組合。
形式一:編碼為x1,x2,…xi…,其中xi為二值的數(shù)值,取值為0或者1,如果年齡i小于等于a,則xi為1,如果年齡i大于a,則xi為0。
形式二:編碼為x1,x2,…xi…,其中xi為二值的數(shù)值,取值為0或者1,如果年齡i等于a除以k,則xi為1,否則,xi為0。其中k可以為任意正整數(shù),其數(shù)值可以人工定義或者隨機(jī)選取。
在步驟s250,將編碼后的屬性作為訓(xùn)練第一卷積網(wǎng)絡(luò)模型的監(jiān)督信息,使用訓(xùn)練樣本對(duì)第一卷積網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到用于檢測(cè)圖像中人臉屬性的第一卷積網(wǎng)絡(luò)模型。
在實(shí)施中,第一卷積網(wǎng)絡(luò)模型的前端可以包括多個(gè)卷積層、池化層和非線性層的組合,其后端可以是損耗層(如基于softmax和/或crossentropy等算法的損耗層)。
第一卷積網(wǎng)絡(luò)模型的結(jié)構(gòu)如圖3所示,其中,
a為輸入層,該層用于讀入樣本圖像、人臉屬性及部分人臉屬性的編碼等。該層可以對(duì)樣本圖像進(jìn)行預(yù)處理,輸出包括定位信息的人臉圖像、人臉屬性的信息或者部分人臉屬性的編碼等。輸入層將經(jīng)過(guò)預(yù)處理的人臉圖像輸出到卷積層,同時(shí)將經(jīng)過(guò)預(yù)處理的人臉屬性的信息和/或部分人臉屬性的編碼輸入到損耗層。
b層為卷積層,其輸入是經(jīng)過(guò)預(yù)處理的人臉圖像或者圖像特征,通過(guò)預(yù)定的線性變換輸出得到人臉圖像的特征。
c層為非線性層,可以通過(guò)非線性函數(shù)對(duì)卷積層b輸入的特征進(jìn)行非線性變換,使得其輸出的特征有較強(qiáng)的表達(dá)能力。
d為池化層,池化層可以將多個(gè)數(shù)值映射到一個(gè)數(shù)值,因此,該層不但可以進(jìn)一步加強(qiáng)學(xué)習(xí)到的特征的非線性,而且可以使得輸出的特征的空間大小變小,而從增強(qiáng)學(xué)習(xí)的特征的平移(即人臉平移)不變性,提取的特征保持不變。其中,池化層的輸出特征可以再次作為卷積層b的輸入數(shù)據(jù)或者全連接層的輸入數(shù)據(jù)。
如圖3所示,卷積層b、非線性層c和池化層d最外面的矩形框表示b、c、d層可以重復(fù)一次或者多次,即卷積層b、非線性層c和池化層d組合可以重復(fù)一次或多次,其中,對(duì)于每一次,池化層的輸出數(shù)據(jù)可以作為卷積層的再次輸入數(shù)據(jù)。b、c、d三層的多次組合,可以更好的處理輸入的樣本圖像,使得樣本圖像中的特征具有最佳的表達(dá)能力。
e層為全連接層,它對(duì)池化層的輸入數(shù)據(jù)進(jìn)行線性變換,將學(xué)習(xí)得到的特征投影到一個(gè)更好的子空間以利于屬性預(yù)測(cè)。
f層為非線性層,與非線性層c的功能一樣,對(duì)全連接層e的輸入特征進(jìn)行非線性變換。其輸出特征可以作為損耗層g的輸入數(shù)據(jù)或者再次作為全連接層e的輸入數(shù)據(jù)。
如圖3所示,全連接層e和非線性層f最外面的矩形框表示e層和f層可以重復(fù)一次或者多次。
g層為一個(gè)或者多個(gè)損耗層,其主要負(fù)責(zé)計(jì)算預(yù)測(cè)的人臉屬性的信息和/或編碼與輸入的人臉屬性的信息和/或編碼的誤差。
通過(guò)向后傳遞的梯度下降算法,訓(xùn)練得到第一卷積網(wǎng)絡(luò)模型中的網(wǎng)絡(luò)參數(shù),這樣可以使得輸入層a只需輸入圖像,即可輸出與輸入圖像中的人臉相應(yīng)的人臉屬性的信息,從而得到第一卷積網(wǎng)絡(luò)模型。
通過(guò)上述過(guò)程,輸入層a負(fù)責(zé)簡(jiǎn)單處理輸入,卷積層b、非線性層c和池化層d的組合負(fù)責(zé)對(duì)樣本圖像的特征提取,全連接層e和非線性層f是提取的特征到人臉屬性的信息和/或編碼的映射,損耗層g負(fù)責(zé)計(jì)算預(yù)測(cè)誤差。通過(guò)上述第一卷積網(wǎng)絡(luò)模型的多層設(shè)計(jì)保證提取的特征具有豐富的表達(dá)能力,而從更好的預(yù)測(cè)人臉屬性。同時(shí),多個(gè)人臉屬性的信息和編碼同時(shí)連接損耗層g,可確保多個(gè)任務(wù)同時(shí)學(xué)習(xí),共享卷積網(wǎng)絡(luò)學(xué)到的特征。
本實(shí)施例中,通過(guò)訓(xùn)練得到的第一卷積網(wǎng)絡(luò)模型,可方便后續(xù)對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行面部表情檢測(cè),并將檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情進(jìn)行匹配,當(dāng)兩者相匹配時(shí),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置,進(jìn)而在該展現(xiàn)位置采用計(jì)算機(jī)繪圖的方式繪制業(yè)務(wù)對(duì)象,這樣當(dāng)業(yè)務(wù)對(duì)象用于展示廣告時(shí),與傳統(tǒng)的視頻廣告方式相比,一方面,該業(yè)務(wù)對(duì)象與視頻播放相結(jié)合,無(wú)須通過(guò)網(wǎng)絡(luò)傳輸與視頻無(wú)關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對(duì)象與視頻圖像中的面部表情緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動(dòng)作,又為視頻圖像增加了趣味性,同時(shí)還不會(huì)打擾用戶正常觀看視頻,從而可以減少用戶對(duì)視頻圖像中展現(xiàn)的業(yè)務(wù)對(duì)象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對(duì)象的影響力。
實(shí)施例三
圖4是示出根據(jù)本發(fā)明實(shí)施例三的視頻圖像的處理方法的流程圖。本實(shí)施例中,業(yè)務(wù)對(duì)象為包含有語(yǔ)義信息的特效,具體地,業(yè)務(wù)對(duì)象可包括包含廣告信息的以下至少一種形式的特效:二維貼紙?zhí)匦А⑷S特效、粒子特效等。視頻圖像為直播類(lèi)視頻圖像,如花椒直播平臺(tái)中某主播進(jìn)行視頻直播時(shí)的視頻圖像。
在步驟s410,獲取當(dāng)前播放的包含人臉信息的視頻圖像。
其中,上述步驟s410的具體處理可參見(jiàn)上述實(shí)施例一中步驟s110中的相關(guān)內(nèi)容,在此不再贅述。
在步驟s420,基于視頻圖像中的人臉信息,使用預(yù)先訓(xùn)練的、用于檢測(cè)圖像中人臉屬性的第一卷積網(wǎng)絡(luò)模型,對(duì)視頻圖像進(jìn)行人臉的面部表情檢測(cè)。
在實(shí)施中,可以將獲取到的包含人臉信息的視頻圖像輸入到上述實(shí)施例二中訓(xùn)練得到的第一卷積網(wǎng)絡(luò)模型中,通過(guò)第一卷積網(wǎng)絡(luò)模型中的網(wǎng)絡(luò)參數(shù)可以分別對(duì)視頻圖像進(jìn)行如縮放等預(yù)處理、特征提取、映射和變換等處理,以對(duì)視頻圖像進(jìn)行人臉的面部表情檢測(cè),得到視頻圖像中包含的人臉的面部表情。
在步驟s430,當(dāng)確定檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情相匹配時(shí),提取與檢測(cè)到的面部表情相應(yīng)的人臉區(qū)域內(nèi)人臉屬性的特征點(diǎn)。
在實(shí)施中,對(duì)于包含人臉信息的每個(gè)視頻圖像,其中人臉中都會(huì)包含有一定的特征點(diǎn),如眼睛、鼻子、嘴巴、臉部輪廓等特征點(diǎn)。對(duì)視頻圖像中的人臉進(jìn)行檢測(cè)并確定特征點(diǎn),可以采用任意適當(dāng)?shù)南嚓P(guān)技術(shù)中的方式實(shí)現(xiàn),本發(fā)明實(shí)施例對(duì)此不作限定。例如,線性特征提取方式如pca主成分分析、lda線性判別分析、ica獨(dú)立成分分析等;再例如非線性特征提取方式如kernelpca核主成分分析、流形學(xué)習(xí)等;也可以使用訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型如本發(fā)明實(shí)施例中的卷積網(wǎng)絡(luò)模型進(jìn)行人臉屬性的特征點(diǎn)的提取。
以視頻直播為例,在進(jìn)行視頻直播的過(guò)程中,從直播的視頻圖像中檢測(cè)人臉并確定人臉屬性的特征點(diǎn);再例如,在某一已錄制完成的視頻的播放過(guò)程中,從播放的視頻圖像中檢測(cè)人臉并確定人臉屬性的特征點(diǎn);又例如,在某一視頻的錄制過(guò)程中,從錄制的視頻圖像中檢測(cè)人臉并確定人臉屬性的特征點(diǎn)等等。
在步驟s440,根據(jù)人臉屬性的特征點(diǎn),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。
在實(shí)施中,在人臉屬性的特征點(diǎn)確定后,可以以此為依據(jù),確定待展示的業(yè)務(wù)對(duì)象在視頻圖像中的一個(gè)或多個(gè)展現(xiàn)位置。
在本實(shí)施例中,在根據(jù)目標(biāo)對(duì)象的特征點(diǎn)確定待展示的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置時(shí),可行的實(shí)現(xiàn)方式包括:
方式一,根據(jù)人臉屬性的特征點(diǎn),使用預(yù)先訓(xùn)練的、用于確定業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置的第二卷積網(wǎng)絡(luò)模型,確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置;方式二,根據(jù)人臉屬性的特征點(diǎn)和待展現(xiàn)的業(yè)務(wù)對(duì)象的類(lèi)型,確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。
以下,分別對(duì)上述兩種方式進(jìn)行詳細(xì)說(shuō)明。
方式一
在使用方式一確定待展示的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置時(shí),需要預(yù)先訓(xùn)練一個(gè)卷積網(wǎng)絡(luò)模型(即第二卷積網(wǎng)絡(luò)模型),訓(xùn)練完成的第二卷積網(wǎng)絡(luò)模型具有確定業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置的功能;或者,也可以直接使用第三方已訓(xùn)練完成的、具有確定業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置的功能的卷積網(wǎng)絡(luò)模型。
需要說(shuō)明的是,本實(shí)施例中,著重對(duì)業(yè)務(wù)對(duì)象的訓(xùn)練進(jìn)行說(shuō)明,但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)明了,第二卷積網(wǎng)絡(luò)模型在對(duì)業(yè)務(wù)對(duì)象進(jìn)行訓(xùn)練的同時(shí),也可以對(duì)人臉進(jìn)行訓(xùn)練,實(shí)現(xiàn)人臉和業(yè)務(wù)對(duì)象的聯(lián)合訓(xùn)練。
當(dāng)需要預(yù)先訓(xùn)練第二卷積網(wǎng)絡(luò)模型時(shí),一種可行的訓(xùn)練方式包括以下過(guò)程:
(1)獲取訓(xùn)練樣本的樣本圖像的特征向量。
其中,特征向量中包含有訓(xùn)練樣本的樣本圖像中的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息,以及樣本圖像中人臉屬性對(duì)應(yīng)的人臉特征向量。業(yè)務(wù)對(duì)象的置信度信息指示了業(yè)務(wù)對(duì)象展示在當(dāng)前位置時(shí),能夠達(dá)到的效果(如被關(guān)注或被點(diǎn)擊或被觀看)的概率,該概率可以根據(jù)對(duì)歷史數(shù)據(jù)的統(tǒng)計(jì)分析結(jié)果設(shè)定,也可以根據(jù)仿真實(shí)驗(yàn)的結(jié)果設(shè)定,還可以根據(jù)人工經(jīng)驗(yàn)進(jìn)行設(shè)定。在實(shí)際應(yīng)用中,可以根據(jù)實(shí)際需要,僅對(duì)業(yè)務(wù)對(duì)象的位置信息進(jìn)行訓(xùn)練,也可以僅對(duì)業(yè)務(wù)對(duì)象的置信度信息進(jìn)行訓(xùn)練,還可以對(duì)二者均進(jìn)行訓(xùn)練。對(duì)二者均進(jìn)行訓(xùn)練,能夠使得訓(xùn)練后的第二卷積網(wǎng)絡(luò)模型更為有效和精準(zhǔn)地確定業(yè)務(wù)對(duì)象的位置信息和置信度信息,以便為業(yè)務(wù)對(duì)象的展示提供依據(jù)。
第二卷積網(wǎng)絡(luò)模型通過(guò)大量的樣本圖像進(jìn)行訓(xùn)練,本發(fā)明實(shí)施例中,訓(xùn)練樣本的樣本圖像可以是上述實(shí)施例二中的多張包括人臉信息的樣本圖像,而且需要使用包含有業(yè)務(wù)對(duì)象的業(yè)務(wù)對(duì)象樣本圖像對(duì)第二卷積網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)明了的是,用來(lái)訓(xùn)練的業(yè)務(wù)對(duì)象樣本圖像中,除了包含業(yè)務(wù)對(duì)象外,也應(yīng)當(dāng)包含人臉信息。此外,本發(fā)明實(shí)施例中的業(yè)務(wù)對(duì)象樣本圖像中的業(yè)務(wù)對(duì)象可以被預(yù)先標(biāo)注位置信息,或者置信度信息,或者二種信息都有。當(dāng)然,在實(shí)際應(yīng)用中,這些信息也可以通過(guò)其它途徑獲取。而通過(guò)預(yù)先在對(duì)業(yè)務(wù)對(duì)象進(jìn)行相應(yīng)信息的標(biāo)注,可以有效節(jié)約數(shù)據(jù)處理的數(shù)據(jù)和交互次數(shù),提高數(shù)據(jù)處理效率。
將具有業(yè)務(wù)對(duì)象的位置信息和/或置信度信息,以及某種人臉屬性的樣本圖像作為訓(xùn)練樣本,對(duì)其進(jìn)行特征向量提取,獲得包含有業(yè)務(wù)對(duì)象的位置信息和/或置信度信息的特征向量,以及人臉屬性對(duì)應(yīng)的人臉特征向量。
可選地,可以使用第二卷積網(wǎng)絡(luò)模型對(duì)人臉和業(yè)務(wù)對(duì)象同時(shí)進(jìn)行訓(xùn)練,在此情況下,樣本圖像的特征向量中,也應(yīng)當(dāng)包含人臉的特征。
對(duì)特征向量的提取可以采用相關(guān)技術(shù)中的適當(dāng)方式實(shí)現(xiàn),本發(fā)明實(shí)施例在此不再贅述。
(2)對(duì)特征向量進(jìn)行卷積處理,獲取特征向量卷積結(jié)果。
在實(shí)施中,獲取的特征向量卷積結(jié)果中包含有業(yè)務(wù)對(duì)象的位置信息和/或置信度信息,人臉屬性對(duì)應(yīng)的人臉特征向量對(duì)應(yīng)的特征向量卷積結(jié)果。在對(duì)人臉和業(yè)務(wù)對(duì)象進(jìn)行聯(lián)合訓(xùn)練的情況下,特征向量卷積結(jié)果中還包含人臉信息。
對(duì)特征向量的卷積處理次數(shù)可以根據(jù)實(shí)際需要進(jìn)行設(shè)定,也即,第二卷積網(wǎng)絡(luò)模型中,卷積層的層數(shù)根據(jù)實(shí)際需要進(jìn)行設(shè)置,在此不再贅述。
卷積結(jié)果是對(duì)特征向量進(jìn)行了特征提取后的結(jié)果,該結(jié)果能夠有效表征視頻圖像中人臉的特征對(duì)應(yīng)的業(yè)務(wù)對(duì)象。
本發(fā)明實(shí)施例中,當(dāng)特征向量中既包含業(yè)務(wù)對(duì)象的位置信息,又包含業(yè)務(wù)對(duì)象的置信度信息時(shí),也即,對(duì)業(yè)務(wù)對(duì)象的位置信息和置信度信息均進(jìn)行了訓(xùn)練的情況下,該特征向量卷積結(jié)果在后續(xù)分別進(jìn)行收斂條件判斷時(shí)共享,無(wú)須進(jìn)行重復(fù)處理和計(jì)算,減少了由數(shù)據(jù)處理引起的資源損耗,提高了數(shù)據(jù)處理速度和效率。
(3)判斷特征向量卷積結(jié)果中對(duì)應(yīng)的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息是否滿足業(yè)務(wù)對(duì)象收斂條件,并判斷特征向量卷積結(jié)果中對(duì)應(yīng)的人臉特征向量是否滿足人臉收斂條件。
其中,收斂條件由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際需求適當(dāng)設(shè)定。當(dāng)信息滿足收斂條件時(shí),可以認(rèn)為第二卷積網(wǎng)絡(luò)模型中的網(wǎng)絡(luò)參數(shù)設(shè)置適當(dāng);當(dāng)信息不能滿足收斂條件時(shí),可以認(rèn)為第二卷積網(wǎng)絡(luò)模型中的網(wǎng)絡(luò)參數(shù)設(shè)置不適當(dāng),需要對(duì)其進(jìn)行調(diào)整,該調(diào)整是一個(gè)迭代的過(guò)程,直至使用調(diào)整后的網(wǎng)絡(luò)參數(shù)對(duì)特征向量進(jìn)行卷積處理的結(jié)果滿足收斂條件。
一種可行方式中,收斂條件可以根據(jù)預(yù)設(shè)的標(biāo)準(zhǔn)位置和/或預(yù)設(shè)的標(biāo)準(zhǔn)置信度進(jìn)行設(shè)定,如,將特征向量卷積結(jié)果中業(yè)務(wù)對(duì)象的位置信息指示的位置與預(yù)設(shè)的標(biāo)準(zhǔn)位置之間的距離是否滿足一定閾值作為業(yè)務(wù)對(duì)象的位置信息的收斂條件;將特征向量卷積結(jié)果中業(yè)務(wù)對(duì)象的置信度信息指示的置信度與預(yù)設(shè)的標(biāo)準(zhǔn)置信度之間的差別是否滿足一定閾值作為業(yè)務(wù)對(duì)象的置信度信息的收斂條件等。
其中,優(yōu)選地,預(yù)設(shè)的標(biāo)準(zhǔn)位置可以是對(duì)訓(xùn)練樣本的樣本圖像中的業(yè)務(wù)對(duì)象的位置進(jìn)行平均處理后獲得的平均位置;預(yù)設(shè)的標(biāo)準(zhǔn)置信度可以是對(duì)訓(xùn)練樣本的樣本圖像中的業(yè)務(wù)對(duì)象的置信度進(jìn)行平均處理后獲取的平均置信度。因樣本圖像為待訓(xùn)練樣本且數(shù)據(jù)量龐大,可依據(jù)訓(xùn)練樣本的樣本圖像中的業(yè)務(wù)對(duì)象的位置和/或置信度設(shè)定標(biāo)準(zhǔn)位置和/或標(biāo)準(zhǔn)置信度,這樣設(shè)定的標(biāo)準(zhǔn)位置和標(biāo)準(zhǔn)置信度也更為客觀和精確。
在具體進(jìn)行特征向量卷積結(jié)果中對(duì)應(yīng)的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息是否滿足收斂條件的判斷時(shí),一種可行的方式包括:
獲取特征向量卷積結(jié)果中對(duì)應(yīng)的業(yè)務(wù)對(duì)象的位置信息,通過(guò)計(jì)算對(duì)應(yīng)的業(yè)務(wù)對(duì)象的位置信息指示的位置與預(yù)設(shè)的標(biāo)準(zhǔn)位置之間的歐式距離,得到對(duì)應(yīng)的業(yè)務(wù)對(duì)象的位置信息指示的位置與預(yù)設(shè)的標(biāo)準(zhǔn)位置之間的第一距離,根據(jù)第一距離判斷對(duì)應(yīng)的業(yè)務(wù)對(duì)象的位置信息是否滿足收斂條件;
和/或,
獲取特征向量卷積結(jié)果中對(duì)應(yīng)的業(yè)務(wù)對(duì)象的置信度信息,計(jì)算對(duì)應(yīng)的業(yè)務(wù)對(duì)象的置信度信息指示的置信度與預(yù)設(shè)的標(biāo)準(zhǔn)置信度之間的歐式距離,得到對(duì)應(yīng)的業(yè)務(wù)對(duì)象的置信度信息指示的置信度與預(yù)設(shè)的標(biāo)準(zhǔn)置信度之間的第二距離,根據(jù)第二距離判斷對(duì)應(yīng)的業(yè)務(wù)對(duì)象的置信度信息是否滿足收斂條件。其中,采用歐式距離的方式,實(shí)現(xiàn)簡(jiǎn)單且能夠有效指示收斂條件是否被滿足。但不限于此,其它方式,如馬式距離,巴式距離等也同樣適用。
優(yōu)選地,如前所述,預(yù)設(shè)的標(biāo)準(zhǔn)位置為對(duì)訓(xùn)練樣本的樣本圖像中的業(yè)務(wù)對(duì)象的位置進(jìn)行平均處理后獲得的平均位置;和/或,預(yù)設(shè)的標(biāo)準(zhǔn)置信度為對(duì)訓(xùn)練樣本的樣本圖像中的業(yè)務(wù)對(duì)象的置信度進(jìn)行平均處理后獲取的平均置信度。
對(duì)于判斷該特征向量卷積結(jié)果中對(duì)應(yīng)的人臉特征向量是否滿足人臉收斂條件可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況進(jìn)行設(shè)定,本發(fā)明實(shí)施例對(duì)此不做限定。
(4)若都滿足,則完成對(duì)第二卷積網(wǎng)絡(luò)模型的訓(xùn)練;否則,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對(duì)第二卷積網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,直至迭代訓(xùn)練后的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息以及人臉特征向量均滿足相應(yīng)的收斂條件。
通過(guò)對(duì)第二卷積網(wǎng)絡(luò)模型進(jìn)行上述訓(xùn)練,第二卷積網(wǎng)絡(luò)模型可以對(duì)基于人臉進(jìn)行展示的業(yè)務(wù)對(duì)象的展現(xiàn)位置進(jìn)行特征提取和分類(lèi),從而具有確定業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置的功能。其中,當(dāng)展現(xiàn)位置包括多個(gè)時(shí),通過(guò)上述業(yè)務(wù)對(duì)象置信度的訓(xùn)練,第二卷積網(wǎng)絡(luò)模型還可以確定出多個(gè)展現(xiàn)位置中的展示效果的優(yōu)劣順序,從而確定最優(yōu)的展現(xiàn)位置。在后續(xù)應(yīng)用中,當(dāng)需要展示業(yè)務(wù)對(duì)象時(shí),根據(jù)視頻中的當(dāng)前圖像即可確定出有效的展現(xiàn)位置。
此外,在對(duì)第二卷積網(wǎng)絡(luò)模型進(jìn)行上述訓(xùn)練之前,還可以預(yù)先對(duì)樣本圖像進(jìn)行預(yù)處理,包括:獲取多個(gè)樣本圖像,其中,每個(gè)樣本圖像中包含有業(yè)務(wù)對(duì)象的標(biāo)注信息;根據(jù)標(biāo)注信息確定業(yè)務(wù)對(duì)象的位置,判斷確定的業(yè)務(wù)對(duì)象的位置與預(yù)設(shè)位置的距離是否小于或等于設(shè)定閾值;將小于或等于設(shè)定閾值的業(yè)務(wù)對(duì)象對(duì)應(yīng)的樣本圖像,確定為訓(xùn)練樣本的樣本圖像。其中,預(yù)設(shè)位置和設(shè)定閾值均可以由本領(lǐng)域技術(shù)人員采用任意適當(dāng)方式進(jìn)行適當(dāng)設(shè)置,如根據(jù)數(shù)據(jù)統(tǒng)計(jì)分析結(jié)果或者相關(guān)距離計(jì)算公式或者人工經(jīng)驗(yàn)等,本發(fā)明實(shí)施例對(duì)此不作限定。
通過(guò)預(yù)先對(duì)業(yè)務(wù)對(duì)象樣本圖像進(jìn)行預(yù)處理,可以過(guò)濾掉不符合條件的樣本圖像,以保證訓(xùn)練結(jié)果的準(zhǔn)確性。
通過(guò)上述過(guò)程實(shí)現(xiàn)了第二卷積網(wǎng)絡(luò)模型的訓(xùn)練,訓(xùn)練完成的第二卷積網(wǎng)絡(luò)模型可以用來(lái)確定業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。例如,在視頻直播過(guò)程中,若主播點(diǎn)擊業(yè)務(wù)對(duì)象指示進(jìn)行業(yè)務(wù)對(duì)象展示時(shí),在第二卷積網(wǎng)絡(luò)模型獲得了直播的視頻圖像中主播的面部特征點(diǎn)后,可以指示出展示業(yè)務(wù)對(duì)象的最優(yōu)位置如主播的額頭位置,進(jìn)而控制直播應(yīng)用在該位置展示業(yè)務(wù)對(duì)象;或者,在視頻直播過(guò)程中,若主播點(diǎn)擊業(yè)務(wù)對(duì)象指示進(jìn)行業(yè)務(wù)對(duì)象展示時(shí),第二卷積網(wǎng)絡(luò)模型可以直接根據(jù)直播的視頻圖像確定業(yè)務(wù)對(duì)象的展現(xiàn)位置。
方式二
根據(jù)人臉屬性的特征點(diǎn)和待展現(xiàn)的業(yè)務(wù)對(duì)象的類(lèi)型,確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。
在實(shí)施中,在獲取了人臉屬性的特征點(diǎn)之后,可以按照設(shè)定的規(guī)則確定待展示的業(yè)務(wù)對(duì)象的展現(xiàn)位置。其中,確定待展示的業(yè)務(wù)對(duì)象的展現(xiàn)位置包括以下至少之一:視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域?yàn)橹行牡脑O(shè)定范圍內(nèi)的區(qū)域、視頻圖像中預(yù)先設(shè)定的區(qū)域等。
在確定了展現(xiàn)位置后,可以進(jìn)一步確定待展示的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。例如,以展現(xiàn)位置的中心點(diǎn)為業(yè)務(wù)對(duì)象的展現(xiàn)位置中心點(diǎn)進(jìn)行業(yè)務(wù)對(duì)象的展示;再例如,將展現(xiàn)位置對(duì)應(yīng)的展現(xiàn)區(qū)域中的某一坐標(biāo)位置確定為展現(xiàn)位置的中心點(diǎn)等,本發(fā)明實(shí)施例對(duì)此不作限定。
在一種優(yōu)選的實(shí)施方案中,在確定待展示的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置時(shí),不僅根據(jù)人臉屬性的特征點(diǎn),還根據(jù)待展示的業(yè)務(wù)對(duì)象的類(lèi)型,確定待展示的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。其中,業(yè)務(wù)對(duì)象的類(lèi)型包括以下至少之一:額頭貼片類(lèi)型、臉頰貼片類(lèi)型、下巴貼片類(lèi)型、虛擬帽子類(lèi)型、虛擬服裝類(lèi)型、虛擬妝容類(lèi)型、虛擬頭飾類(lèi)型、虛擬發(fā)飾類(lèi)型、虛擬首飾類(lèi)型。但不限于此,業(yè)務(wù)對(duì)象的類(lèi)型還可以為其它適當(dāng)類(lèi)型,如虛擬瓶蓋類(lèi)型,虛擬杯子類(lèi)型、文字類(lèi)型等等。
由此,根據(jù)業(yè)務(wù)對(duì)象的類(lèi)型,可以以人臉屬性的特征點(diǎn)為參考,為業(yè)務(wù)對(duì)象選擇適當(dāng)?shù)恼宫F(xiàn)位置。
此外,在根據(jù)人臉屬性的特征點(diǎn)和待展示的業(yè)務(wù)對(duì)象的類(lèi)型,獲得待展示的業(yè)務(wù)對(duì)象在視頻圖像中的多個(gè)展現(xiàn)位置的情況下,可以從多個(gè)展現(xiàn)位置中選擇至少一個(gè)展現(xiàn)位置。例如,對(duì)于文字類(lèi)型的業(yè)務(wù)對(duì)象,可以展示在背景區(qū)域,也可以展示在人物的額頭或身體區(qū)域等。
此外,可以預(yù)先存儲(chǔ)面部表情與展現(xiàn)位置的對(duì)應(yīng)關(guān)系,在確定檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情相匹配時(shí),可從預(yù)先存儲(chǔ)的面部表情與展現(xiàn)位置的對(duì)應(yīng)關(guān)系中,獲取預(yù)定面部表情對(duì)應(yīng)的目標(biāo)展現(xiàn)位置作為待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。其中,需要說(shuō)明的是,盡管存在上述面部表情與展現(xiàn)位置的對(duì)應(yīng)關(guān)系,但是,面部表情與展現(xiàn)位置并沒(méi)有必然關(guān)系,面部表情僅僅是觸發(fā)業(yè)務(wù)對(duì)象展現(xiàn)的一種方式,而且展現(xiàn)位置與人臉也不存在必然關(guān)系,也即是業(yè)務(wù)對(duì)象可以展現(xiàn)在人臉的某一個(gè)區(qū)域,也可以顯示在人臉之外的其它區(qū)域,如視頻圖像的背景區(qū)域等。
在步驟s450,在展現(xiàn)位置采用計(jì)算機(jī)繪圖方式繪制業(yè)務(wù)對(duì)象。
當(dāng)業(yè)務(wù)對(duì)象為包含有語(yǔ)義信息的貼紙,如廣告貼紙時(shí),在進(jìn)行業(yè)務(wù)對(duì)象的繪制之前,可以先獲取業(yè)務(wù)對(duì)象的相關(guān)信息,如業(yè)務(wù)對(duì)象的標(biāo)識(shí)、大小等。在確定了展現(xiàn)位置后,可以根據(jù)展現(xiàn)位置的坐標(biāo),對(duì)業(yè)務(wù)對(duì)象進(jìn)行縮放、旋轉(zhuǎn)等調(diào)整,然后,通過(guò)相應(yīng)的繪圖方式如opengl方式對(duì)業(yè)務(wù)對(duì)象進(jìn)行繪制。在某些情況下,廣告還可以以三維特效形式展示,如通過(guò)粒子特效方式展示廣告的文字或logo等。例如,通過(guò)虛擬瓶蓋類(lèi)型的廣告貼紙展示某一產(chǎn)品的名稱(chēng),吸引觀眾觀看,提高廣告投放和展示效率。
本發(fā)明實(shí)施例提供的視頻圖像的處理方法,當(dāng)業(yè)務(wù)對(duì)象用于展示廣告時(shí),與傳統(tǒng)的視頻廣告方式相比,一方面,該業(yè)務(wù)對(duì)象與視頻播放相結(jié)合,無(wú)須通過(guò)網(wǎng)絡(luò)傳輸與視頻無(wú)關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對(duì)象與視頻圖像中的面部表情緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動(dòng)作,又為視頻圖像增加了趣味性,同時(shí)還不會(huì)打擾用戶正常觀看視頻,從而可以減少用戶對(duì)視頻圖像中展現(xiàn)的業(yè)務(wù)對(duì)象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對(duì)象的影響力。
實(shí)施例四
圖5是示出根據(jù)本發(fā)明實(shí)施例四的視頻圖像的處理方法的流程圖。
本實(shí)施例以業(yè)務(wù)對(duì)象為包含有廣告信息的二維貼紙?zhí)匦?,具體為廣告貼紙為例,對(duì)本發(fā)明實(shí)施例的視頻圖像處理方案進(jìn)行說(shuō)明。
本實(shí)施例的視頻圖像的處理方法包括以下步驟:
在步驟s501,獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,其中,樣本圖像包含被標(biāo)注的人臉屬性的信息。
在步驟s502,對(duì)人臉屬性中具有大小順序特征的屬性進(jìn)行編碼。
在步驟s503,將編碼后的屬性作為訓(xùn)練第一卷積網(wǎng)絡(luò)模型的監(jiān)督信息,使用訓(xùn)練樣本對(duì)第一卷積網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到用于檢測(cè)圖像中人臉屬性的第一卷積網(wǎng)絡(luò)模型。
上述步驟s501~步驟s503的步驟內(nèi)容與上述實(shí)施例二中的步驟內(nèi)容相同,在此不再贅述。
在步驟s504,獲取上述訓(xùn)練樣本的樣本圖像的特征向量。
其中,特征向量中包含有業(yè)務(wù)對(duì)象樣本圖像中的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息,以及樣本圖像中人臉屬性對(duì)應(yīng)的人臉特征向量。
其中,每一張樣本圖像中人臉屬性(即人臉的面部表情)可以是在對(duì)第一卷積網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練時(shí)確定。
在實(shí)施中,樣本圖像中存在一些不符合第二卷積網(wǎng)絡(luò)模型的訓(xùn)練標(biāo)準(zhǔn)的樣本圖像,需要通過(guò)對(duì)樣本圖像的預(yù)處理將這部分樣本圖像過(guò)濾掉。
首先,本實(shí)施例中,每個(gè)樣本圖像中都包含有業(yè)務(wù)對(duì)象,且每個(gè)業(yè)務(wù)對(duì)象都標(biāo)注有位置信息和置信度信息。一種可行的實(shí)施方案中,將業(yè)務(wù)對(duì)象的中心點(diǎn)的位置信息作為該業(yè)務(wù)對(duì)象的位置信息。本步驟中,僅根據(jù)業(yè)務(wù)對(duì)象的位置信息對(duì)樣本圖像進(jìn)行過(guò)濾。獲得位置信息指示的位置的坐標(biāo),將該坐標(biāo)與預(yù)設(shè)的該類(lèi)型的業(yè)務(wù)對(duì)象的位置坐標(biāo)進(jìn)行比對(duì),計(jì)算二者的位置方差。若該位置方差小于或等于設(shè)定的閾值,則該樣本圖像可以作為訓(xùn)練樣本的樣本圖像;若該位置方差大于設(shè)定的閾值,則過(guò)濾掉該業(yè)務(wù)對(duì)象樣本圖像。其中,預(yù)設(shè)的位置坐標(biāo)和設(shè)定的閾值均可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況適當(dāng)設(shè)置,例如,因?yàn)橐话阌糜诘诙矸e網(wǎng)絡(luò)模型訓(xùn)練的圖像具有相同的大小,因此設(shè)定的閾值可以為圖像長(zhǎng)或?qū)挼?/20~1/5,優(yōu)選地,可以為圖像長(zhǎng)或?qū)挼?/10。
此外,還可以對(duì)確定的訓(xùn)練樣本的樣本圖像中的業(yè)務(wù)對(duì)象的位置和置信度進(jìn)行平均,獲取平均位置和平均置信度,該平均位置和平均置信度可以作為后續(xù)確定收斂條件的依據(jù)。
當(dāng)以業(yè)務(wù)對(duì)象為廣告貼紙為實(shí)例時(shí),本實(shí)施例中用于訓(xùn)練的樣本圖像需要標(biāo)注有最優(yōu)廣告位置的坐標(biāo)和該廣告位的置信度。其中,最優(yōu)廣告位置可以在人臉、前背景等地方標(biāo)注,因此可以實(shí)現(xiàn)面部特征點(diǎn)、前背景等地方的廣告位的聯(lián)合訓(xùn)練,這相對(duì)于基于面部表情等某一項(xiàng)技術(shù)單獨(dú)訓(xùn)練的方案,有利于節(jié)省計(jì)算資源。置信度的大小表示了這個(gè)廣告位是最優(yōu)廣告位的概率,例如,如果這個(gè)廣告位是被遮擋多,則置信度低。
在步驟s505,對(duì)特征向量進(jìn)行卷積處理,獲取特征向量卷積結(jié)果。
需要說(shuō)明的是,對(duì)該特征向量進(jìn)行卷積處理時(shí),既需要對(duì)樣本圖像中的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息對(duì)應(yīng)的特征向量進(jìn)行卷積處理,還需要對(duì)每一張樣本圖像中人臉屬性對(duì)應(yīng)的人臉特征向量進(jìn)行卷積處理,分別得到相應(yīng)的特征向量卷積結(jié)果。
在步驟s506,判斷特征向量卷積結(jié)果中對(duì)應(yīng)的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息是否滿足業(yè)務(wù)對(duì)象收斂條件,并判斷特征向量卷積結(jié)果中對(duì)應(yīng)的人臉特征向量是否滿足人臉收斂條件。
在步驟s507,若都滿足,則完成對(duì)第二卷積網(wǎng)絡(luò)模型的訓(xùn)練;否則,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對(duì)第二卷積網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,直至迭代訓(xùn)練后的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息以及人臉特征向量均滿足相應(yīng)的收斂條件。
上述步驟s505~步驟s507的具體處理可以參見(jiàn)上述實(shí)施例三中的相關(guān)內(nèi)容,在此不再贅述。
通過(guò)上述步驟s504~步驟s507的處理可以得到訓(xùn)練完成的第二卷積網(wǎng)絡(luò)模型。其中,第二卷積網(wǎng)絡(luò)模型的結(jié)構(gòu)可以參考上述實(shí)施例二中第一卷積網(wǎng)絡(luò)模型的結(jié)構(gòu),在此不再贅述。
通過(guò)上述訓(xùn)練得到的第一卷積網(wǎng)絡(luò)模型和第二卷積網(wǎng)絡(luò)模型可以對(duì)視頻圖像進(jìn)行相應(yīng)的處理,具體可以包括以下步驟s508~步驟s512。
在步驟s508,獲取當(dāng)前播放的包含人臉信息的視頻圖像。
在步驟s509,基于視頻圖像中的人臉信息,使用預(yù)先訓(xùn)練的、用于檢測(cè)圖像中人臉屬性的第一卷積網(wǎng)絡(luò)模型,對(duì)視頻圖像進(jìn)行人臉的面部表情檢測(cè)。
在步驟s510,當(dāng)確定檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情相匹配時(shí),提取與檢測(cè)到的面部表情相應(yīng)的人臉區(qū)域內(nèi)人臉屬性的特征點(diǎn)。
在步驟s511,根據(jù)人臉屬性的特征點(diǎn),使用預(yù)先訓(xùn)練的、用于確定業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置的第二卷積網(wǎng)絡(luò)模型,確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。
在步驟s512,在展現(xiàn)位置采用計(jì)算機(jī)繪圖方式繪制業(yè)務(wù)對(duì)象。
隨著互聯(lián)網(wǎng)直播和短視頻分享的興起,越來(lái)越多的視頻以直播或者短視頻的方式出現(xiàn)。這類(lèi)視頻常常以人物為主角(單一人物或少量人物),以人物加簡(jiǎn)單背景為主要場(chǎng)景,觀眾主要在手機(jī)等移動(dòng)終端上觀看。在此情況下,對(duì)于某些業(yè)務(wù)對(duì)象的投放(如廣告投放)來(lái)說(shuō),一方面,由于移動(dòng)終端的屏幕展示區(qū)域有限,如果以傳統(tǒng)的固定位置放置廣告,往往占用主要的用戶體驗(yàn)區(qū)域,容易引起用戶反感;另一方面,對(duì)于主播類(lèi)直播應(yīng)用,由于直播的即時(shí)性,傳統(tǒng)的插入固定時(shí)長(zhǎng)的廣告會(huì)明顯打擾用戶與主播交流的連貫性,影響用戶觀看體驗(yàn);再一方面,對(duì)于短視頻廣告,由于直播或者短視頻的內(nèi)容時(shí)長(zhǎng)本來(lái)就較短,也給采用傳統(tǒng)方式插入固定時(shí)長(zhǎng)的廣告帶來(lái)了困難。而通過(guò)本實(shí)施例提供的方案,可以實(shí)時(shí)對(duì)視頻播放過(guò)程中的視頻圖像進(jìn)行檢測(cè),給出效果最優(yōu)的廣告投放位置,且不影響用戶的觀看體驗(yàn),投放效果更好;通過(guò)將業(yè)務(wù)對(duì)象與視頻播放相結(jié)合,從而無(wú)須通過(guò)網(wǎng)絡(luò)傳輸與視頻無(wú)關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;而且,業(yè)務(wù)對(duì)象與視頻圖像中的面部表情緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動(dòng)作,又為視頻圖像增加了趣味性,同時(shí)還不會(huì)打擾用戶正常觀看視頻,從而可以減少用戶對(duì)視頻圖像中展現(xiàn)的業(yè)務(wù)對(duì)象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對(duì)象的影響力。
實(shí)施例五
基于相同的技術(shù)構(gòu)思,圖6是示出根據(jù)本發(fā)明實(shí)施例五的視頻圖像的處理裝置的邏輯框圖。參照?qǐng)D6,該視頻圖像的處理裝置包括視頻圖像檢測(cè)模塊601、展現(xiàn)位置確定模塊602和業(yè)務(wù)對(duì)象繪制模塊603。
視頻圖像檢測(cè)模塊601,用于對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行人臉的面部表情檢測(cè)。
展現(xiàn)位置確定模塊602,用于當(dāng)確定檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情相匹配時(shí),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。
業(yè)務(wù)對(duì)象繪制模塊603,用于在展現(xiàn)位置采用計(jì)算機(jī)繪圖方式繪制業(yè)務(wù)對(duì)象。
通過(guò)本實(shí)施例提供的視頻圖像的處理裝置,通過(guò)對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行面部表情檢測(cè),并將檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情進(jìn)行匹配,當(dāng)兩者相匹配時(shí),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置,進(jìn)而在該展現(xiàn)位置采用計(jì)算機(jī)繪圖的方式繪制業(yè)務(wù)對(duì)象,這樣當(dāng)業(yè)務(wù)對(duì)象用于展示廣告時(shí),與傳統(tǒng)的視頻廣告方式相比,一方面,該業(yè)務(wù)對(duì)象與視頻播放相結(jié)合,無(wú)須通過(guò)網(wǎng)絡(luò)傳輸與視頻無(wú)關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對(duì)象與視頻圖像中的面部表情緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動(dòng)作,又為視頻圖像增加了趣味性,同時(shí)還不會(huì)打擾用戶正常觀看視頻,從而可以減少用戶對(duì)視頻圖像中展現(xiàn)的業(yè)務(wù)對(duì)象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對(duì)象的影響力。
實(shí)施例六
基于相同的技術(shù)構(gòu)思,圖7是示出根據(jù)本發(fā)明實(shí)施例六的視頻圖像的處理裝置的邏輯框圖。
本實(shí)施例的視頻圖像的處理裝置包括:視頻圖像檢測(cè)模塊601,用于對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行人臉的面部表情檢測(cè)。展現(xiàn)位置確定模塊602,用于當(dāng)確定檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情相匹配時(shí),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在該視頻圖像中的展現(xiàn)位置。業(yè)務(wù)對(duì)象繪制模塊603,用于在該展現(xiàn)位置采用計(jì)算機(jī)繪圖方式繪制業(yè)務(wù)對(duì)象。
可選地,視頻圖像檢測(cè)模塊601,用于基于當(dāng)前播放的包含人臉信息的視頻圖像中的人臉信息,使用預(yù)先訓(xùn)練的、用于檢測(cè)圖像中人臉屬性的第一卷積網(wǎng)絡(luò)模型,對(duì)視頻圖像進(jìn)行人臉的面部表情檢測(cè)。
可選地,該裝置還包括:訓(xùn)練樣本獲取模塊604,用于獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,其中,樣本圖像包含被標(biāo)注的人臉屬性的信息;編碼模塊605,用于對(duì)人臉屬性中具有大小順序特征的屬性進(jìn)行編碼;第一卷積網(wǎng)絡(luò)模型確定模塊606,用于將編碼后的屬性作為訓(xùn)練第一卷積網(wǎng)絡(luò)模型的監(jiān)督信息,使用訓(xùn)練樣本對(duì)第一卷積網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到用于檢測(cè)圖像中人臉屬性的第一卷積網(wǎng)絡(luò)模型。
可選地,訓(xùn)練樣本獲取模塊604包括:樣本圖像獲取單元,用于獲取多張包括人臉信息的樣本圖像;人臉定位信息確定單元,用于對(duì)每張樣本圖像,檢測(cè)樣本圖像中的人臉和人臉關(guān)鍵點(diǎn),通過(guò)人臉關(guān)鍵點(diǎn)將樣本圖像中的人臉進(jìn)行定位,得到人臉定位信息;訓(xùn)練樣本確定單元,用于將包含人臉定位信息的樣本圖像作為訓(xùn)練樣本。
可選地,展現(xiàn)位置確定模塊602,包括:特征點(diǎn)提取單元,用于提取與檢測(cè)到的面部表情相應(yīng)的人臉區(qū)域內(nèi)人臉屬性的特征點(diǎn);展現(xiàn)位置確定單元,用于根據(jù)人臉屬性的特征點(diǎn),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。
可選地,展現(xiàn)位置確定模塊602,用于根據(jù)人臉屬性的特征點(diǎn),使用預(yù)先訓(xùn)練的、用于確定業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置的第二卷積網(wǎng)絡(luò)模型,確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。
可選地,裝置還包括:特征向量獲取模塊607,用于獲取訓(xùn)練樣本的樣本圖像的特征向量,其中,特征向量中包含有樣本圖像中的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息,以及樣本圖像中人臉屬性對(duì)應(yīng)的人臉特征向量;卷積模塊608,用于對(duì)特征向量進(jìn)行卷積處理,獲取特征向量卷積結(jié)果;收斂條件判斷模塊609,用于判斷特征向量卷積結(jié)果中對(duì)應(yīng)的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息是否滿足業(yè)務(wù)對(duì)象收斂條件,并判斷特征向量卷積結(jié)果中對(duì)應(yīng)的人臉特征向量是否滿足人臉收斂條件;模型訓(xùn)練模塊610,用于若都滿足,則完成對(duì)第二卷積網(wǎng)絡(luò)模型的訓(xùn)練;否則,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對(duì)第二卷積網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,直至迭代訓(xùn)練后的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息以及人臉特征向量均滿足相應(yīng)的收斂條件。
可選地,展現(xiàn)位置確定模塊602,用于根據(jù)人臉屬性的特征點(diǎn)和待展現(xiàn)的業(yè)務(wù)對(duì)象的類(lèi)型,確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。
可選地,展現(xiàn)位置確定模塊602包括:展現(xiàn)位置獲取單元,用于根據(jù)人臉屬性的特征點(diǎn)和待展現(xiàn)的業(yè)務(wù)對(duì)象的類(lèi)型,獲得待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的多個(gè)展現(xiàn)位置;展現(xiàn)位置選擇單元,用于從多個(gè)展現(xiàn)位置中選擇至少一個(gè)展現(xiàn)位置。
可選地,展現(xiàn)位置確定模塊602,用于從預(yù)先存儲(chǔ)的面部表情與展現(xiàn)位置的對(duì)應(yīng)關(guān)系中,獲取預(yù)定面部表情對(duì)應(yīng)的目標(biāo)展現(xiàn)位置作為待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置。
可選地,業(yè)務(wù)對(duì)象為包含有語(yǔ)義信息的特效;視頻圖像為直播類(lèi)視頻圖像。
可選地,業(yè)務(wù)對(duì)象包括包含廣告信息的以下至少一種形式的特效:二維貼紙?zhí)匦?、三維特效、粒子特效。
可選地,展現(xiàn)位置包括以下至少之一:視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域?yàn)橹行牡脑O(shè)定范圍內(nèi)的區(qū)域、視頻圖像中預(yù)先設(shè)定的區(qū)域。
可選地,業(yè)務(wù)對(duì)象的類(lèi)型包括以下至少之一:額頭貼片類(lèi)型、臉頰貼片類(lèi)型、下巴貼片類(lèi)型、虛擬帽子類(lèi)型、虛擬服裝類(lèi)型、虛擬妝容類(lèi)型、虛擬頭飾類(lèi)型、虛擬發(fā)飾類(lèi)型、虛擬首飾類(lèi)型。
可選地,面部表情包括以下至少之一:開(kāi)心、憤怒、痛苦和悲傷。
通過(guò)本實(shí)施例提供的視頻圖像的處理裝置,通過(guò)對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行面部表情檢測(cè),并將檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情進(jìn)行匹配,當(dāng)兩者相匹配時(shí),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置,進(jìn)而在該展現(xiàn)位置采用計(jì)算機(jī)繪圖的方式繪制業(yè)務(wù)對(duì)象,這樣當(dāng)業(yè)務(wù)對(duì)象用于展示廣告時(shí),與傳統(tǒng)的視頻廣告方式相比,一方面,該業(yè)務(wù)對(duì)象與視頻播放相結(jié)合,無(wú)須通過(guò)網(wǎng)絡(luò)傳輸與視頻無(wú)關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對(duì)象與視頻圖像中的面部表情緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動(dòng)作,又為視頻圖像增加了趣味性,同時(shí)還不會(huì)打擾用戶正常觀看視頻,從而可以減少用戶對(duì)視頻圖像中展現(xiàn)的業(yè)務(wù)對(duì)象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對(duì)象的影響力。
實(shí)施例七
參照?qǐng)D8,示出了根據(jù)本發(fā)明實(shí)施例七的一種終端設(shè)備的結(jié)構(gòu)示意圖,本發(fā)明具體實(shí)施例并不對(duì)終端設(shè)備的具體實(shí)現(xiàn)做限定。
如圖8所示,該終端設(shè)備可以包括:處理器(processor)802、通信接口(communicationsinterface)804、存儲(chǔ)器(memory)806、以及通信總線808。
其中:
處理器802、通信接口804、以及存儲(chǔ)器806通過(guò)通信總線808完成相互間的通信。
通信接口804,用于與其它設(shè)備比如其它客戶端或服務(wù)器等的網(wǎng)元通信。
處理器802,用于執(zhí)行程序810,具體可以執(zhí)行上述方法實(shí)施例中的相關(guān)步驟。
具體地,程序810可以包括程序代碼,該程序代碼包括計(jì)算機(jī)操作指令。
處理器810可能是中央處理器cpu,或者是特定集成電路asic(applicationspecificintegratedcircuit),或者是被配置成實(shí)施本發(fā)明實(shí)施例的一個(gè)或多個(gè)集成電路,或者是圖形處理器gpu(graphicsprocessingunit)。終端設(shè)備包括的一個(gè)或多個(gè)處理器,可以是同一類(lèi)型的處理器,如一個(gè)或多個(gè)cpu,或者,一個(gè)或多個(gè)gpu;也可以是不同類(lèi)型的處理器,如一個(gè)或多個(gè)cpu以及一個(gè)或多個(gè)gpu。
存儲(chǔ)器806,用于存放程序810。存儲(chǔ)器806可能包含高速ram存儲(chǔ)器,也可能還包括非易失性存儲(chǔ)器(non-volatilememory),例如至少一個(gè)磁盤(pán)存儲(chǔ)器。
程序810具體可以用于使得處理器802執(zhí)行以下操作:對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行人臉的面部表情檢測(cè);當(dāng)確定檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情相匹配時(shí),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在該視頻圖像中的展現(xiàn)位置;在該展現(xiàn)位置采用計(jì)算機(jī)繪圖方式繪制該業(yè)務(wù)對(duì)象。
在一種可選的實(shí)施方式中,程序810還用于使得處理器802在對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行人臉的面部表情檢測(cè),包括:基于當(dāng)前播放的包含人臉信息的視頻圖像中的人臉信息,使用預(yù)先訓(xùn)練的、用于檢測(cè)圖像中人臉屬性的第一卷積網(wǎng)絡(luò)模型,對(duì)該視頻圖像進(jìn)行人臉的面部表情檢測(cè)。
在一種可選的實(shí)施方式中,程序810還用于使得處理器802在對(duì)該第一卷積網(wǎng)絡(luò)模型進(jìn)行預(yù)先訓(xùn)練,包括:獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,其中,該樣本圖像包含被標(biāo)注的人臉屬性的信息;對(duì)該人臉屬性中具有大小順序特征的屬性進(jìn)行編碼;將編碼后的屬性作為訓(xùn)練該第一卷積網(wǎng)絡(luò)模型的監(jiān)督信息,使用該訓(xùn)練樣本對(duì)該第一卷積網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到用于檢測(cè)圖像中人臉屬性的第一卷積網(wǎng)絡(luò)模型。
在一種可選的實(shí)施方式中,程序810還用于使得處理器802在獲取多張包括人臉信息的樣本圖像作為訓(xùn)練樣本,包括:獲取多張包括人臉信息的樣本圖像;對(duì)每張?jiān)摌颖緢D像,檢測(cè)樣本圖像中的人臉和人臉關(guān)鍵點(diǎn),通過(guò)該人臉關(guān)鍵點(diǎn)將樣本圖像中的人臉進(jìn)行定位,得到人臉定位信息;將包含該人臉定位信息的該樣本圖像作為訓(xùn)練樣本。
在一種可選的實(shí)施方式中,程序810還用于使得處理器802在確定待展現(xiàn)的業(yè)務(wù)對(duì)象在該視頻圖像中的展現(xiàn)位置,包括:提取與檢測(cè)到的面部表情相應(yīng)的人臉區(qū)域內(nèi)人臉屬性的特征點(diǎn);根據(jù)該人臉屬性的特征點(diǎn),確定該待展現(xiàn)的業(yè)務(wù)對(duì)象在該視頻圖像中的展現(xiàn)位置。
在一種可選的實(shí)施方式中,程序810還用于使得處理器802在根據(jù)該人臉屬性的特征點(diǎn),確定該待展現(xiàn)的業(yè)務(wù)對(duì)象在該視頻圖像中的展現(xiàn)位置,包括:根據(jù)該人臉屬性的特征點(diǎn),使用預(yù)先訓(xùn)練的、用于確定業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置的第二卷積網(wǎng)絡(luò)模型,確定該待展現(xiàn)的業(yè)務(wù)對(duì)象在該視頻圖像中的展現(xiàn)位置。
在一種可選的實(shí)施方式中,程序810還用于使得處理器802在對(duì)該第二卷積網(wǎng)絡(luò)模型的預(yù)先訓(xùn)練,包括:獲取訓(xùn)練樣本的樣本圖像的特征向量,其中,該特征向量中包含有樣本圖像中的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息,以及樣本圖像中人臉屬性對(duì)應(yīng)的人臉特征向量;對(duì)該特征向量進(jìn)行卷積處理,獲取特征向量卷積結(jié)果;判斷特征向量卷積結(jié)果中對(duì)應(yīng)的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息是否滿足業(yè)務(wù)對(duì)象收斂條件,并判斷特征向量卷積結(jié)果中對(duì)應(yīng)的人臉特征向量是否滿足人臉收斂條件;若都滿足,則完成對(duì)第二卷積網(wǎng)絡(luò)模型的訓(xùn)練;否則,調(diào)整第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)并根據(jù)調(diào)整后的第二卷積網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)對(duì)第二卷積網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,直至迭代訓(xùn)練后的業(yè)務(wù)對(duì)象的位置信息和/或置信度信息以及人臉特征向量均滿足相應(yīng)的收斂條件。
在一種可選的實(shí)施方式中,程序810還用于使得處理器802在根據(jù)該人臉屬性的特征點(diǎn),確定該待展現(xiàn)的業(yè)務(wù)對(duì)象在該視頻圖像中的展現(xiàn)位置,包括:根據(jù)該人臉屬性的特征點(diǎn)和該待展現(xiàn)的業(yè)務(wù)對(duì)象的類(lèi)型,確定待展現(xiàn)的業(yè)務(wù)對(duì)象在該視頻圖像中的展現(xiàn)位置。
在一種可選的實(shí)施方式中,程序810還用于使得處理器802在該人臉屬性的特征點(diǎn)和該待展現(xiàn)的業(yè)務(wù)對(duì)象的類(lèi)型,確定待展現(xiàn)的業(yè)務(wù)對(duì)象在該視頻圖像中的展現(xiàn)位置,包括:根據(jù)該人臉屬性的特征點(diǎn)和該待展現(xiàn)的業(yè)務(wù)對(duì)象的類(lèi)型,獲得待展現(xiàn)的業(yè)務(wù)對(duì)象在該視頻圖像中的多個(gè)展現(xiàn)位置;從該多個(gè)展現(xiàn)位置中選擇至少一個(gè)展現(xiàn)位置。
在一種可選的實(shí)施方式中,程序810還用于使得處理器802在確定待展現(xiàn)的業(yè)務(wù)對(duì)象在該視頻圖像中的展現(xiàn)位置,包括:從預(yù)先存儲(chǔ)的面部表情與展現(xiàn)位置的對(duì)應(yīng)關(guān)系中,獲取該預(yù)定面部表情對(duì)應(yīng)的目標(biāo)展現(xiàn)位置作為該待展現(xiàn)的業(yè)務(wù)對(duì)象在該視頻圖像中的展現(xiàn)位置。
在一種可選的實(shí)施方式中,業(yè)務(wù)對(duì)象為包含有語(yǔ)義信息的特效;視頻圖像為直播類(lèi)視頻圖像。
在一種可選的實(shí)施方式中,業(yè)務(wù)對(duì)象包括包含廣告信息的以下至少一種形式的特效:二維貼紙?zhí)匦?、三維特效、粒子特效。
在一種可選的實(shí)施方式中,展現(xiàn)位置包括以下至少之一:視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域?yàn)橹行牡脑O(shè)定范圍內(nèi)的區(qū)域、視頻圖像中預(yù)先設(shè)定的區(qū)域。
在一種可選的實(shí)施方式中,業(yè)務(wù)對(duì)象的類(lèi)型包括以下至少之一:額頭貼片類(lèi)型、臉頰貼片類(lèi)型、下巴貼片類(lèi)型、虛擬帽子類(lèi)型、虛擬服裝類(lèi)型、虛擬妝容類(lèi)型、虛擬頭飾類(lèi)型、虛擬發(fā)飾類(lèi)型、虛擬首飾類(lèi)型。
在一種可選的實(shí)施方式中,面部表情包括以下至少之一:開(kāi)心、憤怒、痛苦和悲傷。
通過(guò)本實(shí)施例提供的終端設(shè)備,通過(guò)對(duì)當(dāng)前播放的包含人臉信息的視頻圖像進(jìn)行面部表情檢測(cè),并將檢測(cè)到的面部表情與對(duì)應(yīng)的預(yù)定面部表情進(jìn)行匹配,當(dāng)兩者相匹配時(shí),確定待展現(xiàn)的業(yè)務(wù)對(duì)象在視頻圖像中的展現(xiàn)位置,進(jìn)而在該展現(xiàn)位置采用計(jì)算機(jī)繪圖的方式繪制業(yè)務(wù)對(duì)象,這樣當(dāng)業(yè)務(wù)對(duì)象用于展示廣告時(shí),與傳統(tǒng)的視頻廣告方式相比,一方面,該業(yè)務(wù)對(duì)象與視頻播放相結(jié)合,無(wú)須通過(guò)網(wǎng)絡(luò)傳輸與視頻無(wú)關(guān)的額外廣告視頻數(shù)據(jù),節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源;另一方面,業(yè)務(wù)對(duì)象與視頻圖像中的面部表情緊密結(jié)合,既保留了視頻圖像中視頻主體(如主播)的主要形象和動(dòng)作,又為視頻圖像增加了趣味性,同時(shí)還不會(huì)打擾用戶正常觀看視頻,從而可以減少用戶對(duì)視頻圖像中展現(xiàn)的業(yè)務(wù)對(duì)象的反感,而且能夠在一定程度上吸引觀眾的注意力,提高業(yè)務(wù)對(duì)象的影響力。
需要指出,根據(jù)實(shí)施的需要,可將本申請(qǐng)中描述的各個(gè)步驟/部件拆分為更多步驟/部件,也可將兩個(gè)或多個(gè)步驟/部件或者步驟/部件的部分操作組合成新的步驟/部件,以實(shí)現(xiàn)本發(fā)明的目的。
上述根據(jù)本發(fā)明的方法可在硬件、固件中實(shí)現(xiàn),或者被實(shí)現(xiàn)為可存儲(chǔ)在記錄介質(zhì)(諸如cdrom、ram、軟盤(pán)、硬盤(pán)或磁光盤(pán))中的軟件或計(jì)算機(jī)代碼,或者被實(shí)現(xiàn)通過(guò)網(wǎng)絡(luò)下載的原始存儲(chǔ)在遠(yuǎn)程記錄介質(zhì)或非暫時(shí)機(jī)器可讀介質(zhì)中并將被存儲(chǔ)在本地記錄介質(zhì)中的計(jì)算機(jī)代碼,從而在此描述的方法可被存儲(chǔ)在使用通用計(jì)算機(jī)、專(zhuān)用處理器或者可編程或?qū)S糜布?諸如asic或fpga)的記錄介質(zhì)上的這樣的軟件處理??梢岳斫?,計(jì)算機(jī)、處理器、微處理器控制器或可編程硬件包括可存儲(chǔ)或接收軟件或計(jì)算機(jī)代碼的存儲(chǔ)組件(例如,ram、rom、閃存等),當(dāng)所述軟件或計(jì)算機(jī)代碼被計(jì)算機(jī)、處理器或硬件訪問(wèn)且執(zhí)行時(shí),實(shí)現(xiàn)在此描述的處理方法。此外,當(dāng)通用計(jì)算機(jī)訪問(wèn)用于實(shí)現(xiàn)在此示出的處理的代碼時(shí),代碼的執(zhí)行將通用計(jì)算機(jī)轉(zhuǎn)換為用于執(zhí)行在此示出的處理的專(zhuān)用計(jì)算機(jī)。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。