最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于使用行為區(qū)分電視歸屬屬性的系統(tǒng)與方法與流程

文檔序號:11216957閱讀:507來源:國知局
基于使用行為區(qū)分電視歸屬屬性的系統(tǒng)與方法與流程

本發(fā)明涉及大數(shù)據(jù)和人工智能技術領域,具體涉及一種基于使用行為區(qū)分電視歸屬屬性的系統(tǒng)與方法。



背景技術:

在大數(shù)據(jù)背景下,采集終端的數(shù)據(jù)進行分析是大多數(shù)終端生產(chǎn)者都在做的事情,智能電視也不例外,電視終端從被激活開始,其數(shù)據(jù)一直在被采集,大數(shù)據(jù)平臺開發(fā)者想要分析的是用戶的數(shù)據(jù),但是,這個終端可能被用戶使用,或者在賣場做展示,也有可能存在工廠或者賣場倉庫中,對于判斷哪一臺屬于用戶正在使用的存在一定困難。

目前使用的區(qū)分方式是通過電視上報的經(jīng)緯度排除其是賣場、工廠機,但是經(jīng)度1度表示111.11公里,數(shù)據(jù)稍微有一點點偏差,計算出的地理位置差異很大,而往往終端上報的經(jīng)緯度精確度是不夠的,因此,這種方法的準確率很低。也有利用ip來計算地理位置的,但用戶和賣場的ip都經(jīng)常變化,計算出的地理位置更不準確。前述的利用上報經(jīng)緯度或者ip來計算地理位置的方法,由于經(jīng)度1度代表的實際地理距離為111.11公里,緯度一度在中國范圍內(nèi)代表的實際距離也很大,要把地理距離精確度控制在1公里范圍內(nèi),經(jīng)緯度需要精確到小數(shù)點后三位,而方圓1公里的精確度都不能準確區(qū)分賣場、工廠或者用戶。事實證明,現(xiàn)在的電視終端上報的經(jīng)緯度完全達不到準確計算地理位置的要求。而ip,由于用戶和賣場的ip不是固定ip,也不能準確的計算地理位置。地理位置計算不準,終端就沒辦法區(qū)分賣場、工廠或者用戶。



技術實現(xiàn)要素:

本發(fā)明克服了現(xiàn)有技術的不足,提供一種基于使用行為區(qū)分電視歸屬屬性的系統(tǒng)與方法,用于解決判斷終端歸屬狀態(tài)不準確的技術問題。

考慮到現(xiàn)有技術的上述問題,根據(jù)本發(fā)明公開的一個方面,本發(fā)明采用以下技術方案:

一種基于使用行為區(qū)分電視歸屬屬性的方法,包括以下步驟:

步驟一:將電視激活當天開機時間小于一時間設定值且激活后不再開機的、以及所述電視與工廠的距離小于一距離設定值的判定為工廠庫存電視;反之,則將所述電視判定為賣場電視或用戶終端;

步驟二:收集所述賣場電視或用戶終端的使用行為數(shù)據(jù),將所述使用行為數(shù)據(jù)做k-means聚類,根據(jù)聚類后各數(shù)據(jù)在質(zhì)心中的值的分布來確定對電視歸屬屬性分類有用的數(shù)據(jù);

步驟三:根據(jù)k-means聚類得到的對電視歸屬屬性分類有用的數(shù)據(jù)重新做k-means聚類,聚類得到的質(zhì)心用于計算gmm算法的初始期望、方差,以及初始分布概率;

步驟四:用步驟三中計算出來的參數(shù)對賣場電視、用戶終端做gmm聚類,得到賣場電視和用戶終端的正態(tài)分布的期望和標準差,以及某一電視屬于所述賣場電視或用戶終端的概率,根據(jù)概率大小確定電視的歸屬屬性。

為了更好地實現(xiàn)本發(fā)明,進一步的技術方案是:

根據(jù)本發(fā)明的一個實施方案,所述步驟一中的時間設定值為5分鐘。

根據(jù)本發(fā)明的另一個實施方案,所述使用行為數(shù)據(jù)包括:最近賣場的大概距離、某段時間內(nèi)平均整機開機時長、平均主場景的使用次數(shù)和時長、平均app的使用次數(shù)和時長。

根據(jù)本發(fā)明的另一個實施方案,所述步驟二的k-means聚類中,觀察聚類后各類類型的質(zhì)心對應到各數(shù)據(jù)的值,如果某類數(shù)據(jù)在各質(zhì)心的值層次分明,那么這類數(shù)據(jù)能有效分類,如果某類數(shù)據(jù)在各質(zhì)心較相近,或毫無規(guī)律,則它對有效分類作用不大。

根據(jù)本發(fā)明的另一個實施方案,所述步驟二中篩選后得到的對電視歸屬屬性分類有用的數(shù)據(jù)包括終端與賣場的距離和整機開機時長。

根據(jù)本發(fā)明的另一個實施方案,還包括定期抽樣用戶終端,并計算該用戶終端被分為賣場類的比例。

根據(jù)本發(fā)明的另一個實施方案,還包括定期抽樣查詢在賣場展示終端的mac,并查看這些mac被分為用戶終端的比例。

根據(jù)本發(fā)明的另一個實施方案,在步驟6與步驟7的比例之和大于一設定比例值的情況下,將數(shù)據(jù)平臺上所有終端重新做gmm聚類。

根據(jù)本發(fā)明的另一個實施方案,還包括終端屬性狀態(tài)更新:

每天檢查已被分為工廠的終端是否有開機,在有開機的情況,則該終端不再為工廠類,判定被置為賣場或者用戶狀態(tài)。

本發(fā)明還可以是:

一種基于使用行為區(qū)分電視歸屬屬性的系統(tǒng),包括以下:

用于實現(xiàn)將電視激活當天開機時間小于一時間設定值且激活后不再開機的、以及所述電視與工廠的距離小于一距離設定值的判定為工廠庫存電視,反之,則將所述電視判定為賣場電視或用戶終端的模塊;

用于實現(xiàn)收集所述賣場電視或用戶終端的使用行為數(shù)據(jù),將所述使用行為數(shù)據(jù)做k-means聚類,根據(jù)聚類后各數(shù)據(jù)在質(zhì)心中的值的分布來確定對電視歸屬屬性分類有用的數(shù)據(jù)的模塊;

用于實現(xiàn)根據(jù)k-means聚類得到的對電視歸屬屬性分類有用的數(shù)據(jù)重新做k-means聚類,聚類得到的質(zhì)心用于計算gmm算法的初始期望、方差,以及初始分布概率的模塊;

用于實現(xiàn)根據(jù)計算出來的參數(shù)對賣場電視、用戶終端做gmm聚類,得到賣場電視和用戶終端的正態(tài)分布的期望和標準差,以及某一電視屬于所述賣場電視或用戶終端的概率,根據(jù)概率確定電視的歸屬屬性的模塊。

與現(xiàn)有技術相比,本發(fā)明的有益效果之一是:

本發(fā)明的一種基于使用行為區(qū)分電視歸屬屬性的系統(tǒng)與方法,可以從現(xiàn)有已經(jīng)激活的智能電視終端中準確的區(qū)分出工廠終端、用戶終端和賣場終端,以及可跟蹤終端,及時判斷出其歸屬狀態(tài)的變化;本發(fā)明對判斷終端屬性的準確性和靈活性更高,對單一數(shù)據(jù)的依賴性大大降低。

附圖說明

為了更清楚的說明本申請文件實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術的描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅是對本申請文件中一些實施例的參考,對于本領域技術人員來講,在不付出創(chuàng)造性勞動的情況下,還可以根據(jù)這些附圖得到其它的附圖。

圖1示出了根據(jù)本發(fā)明一個實施例的電視歸屬屬性轉(zhuǎn)換流程框圖。

圖2示出了根據(jù)本發(fā)明一個實施例的聚類流程框圖。

圖3示出了根據(jù)本發(fā)明一個實施例的狀態(tài)更新流程框圖。

具體實施方式

下面結合實施例對本發(fā)明作進一步地詳細說明,但本發(fā)明的實施方式不限于此。

實施例1

一種基于使用行為區(qū)分電視歸屬屬性的方法,包括兩條主線,一條是對電視終端進行屬性分類,一條是根據(jù)使用行為及時更新終端的屬性狀態(tài),具體地:

(一)電視終端屬性分類:

步驟一:將電視激活當天開機時間小于一時間設定值且激活后不再開機的、以及所述電視與工廠的距離小于一距離設定值的判定為工廠庫存電視;反之,則將所述電視判定為賣場電視或用戶終端。

由于工廠在電視生產(chǎn)出來后需要對其做測試,然后存入庫存中,如果在聯(lián)網(wǎng)測試時被激活,一般測試時間在5分鐘以內(nèi),且當天不再開機。同時,工廠的地址有限。因此,優(yōu)選將開機時長小于等于5分鐘,地理位置離工廠較近的終端判定為工廠終端。

步驟二:收集所述賣場電視或用戶終端的使用行為數(shù)據(jù),將所述使用行為數(shù)據(jù)做k-means聚類,根據(jù)聚類后各數(shù)據(jù)在質(zhì)心中的值的分布來確定對電視歸屬屬性分類有用的數(shù)據(jù)。

由于除開工廠終端外,非工廠電視終端的歸屬類型不可知,沒有樣本數(shù)據(jù),無法直接使用分類算法訓練分類模型,因此,本實施例首先以大數(shù)據(jù)平臺上收集到的所有非工廠的用戶的使用行為數(shù)據(jù)做k-means聚類,根據(jù)聚類后各數(shù)據(jù)在k個質(zhì)心(中心點)中的值的分布來確定哪些數(shù)據(jù)對分類有用。

步驟三:根據(jù)k-means聚類得到的對電視歸屬屬性分類有用的數(shù)據(jù)重新做k-means聚類,聚類得到的質(zhì)心用于計算gmm算法的初始期望、方差,以及初始分布概率。

k-means聚類的原理是將訓練樣本分為k個簇,在不斷迭代的過程中,讓每個樣本與其所屬簇的質(zhì)心的距離最近,那么每個樣本的類型確定了,且質(zhì)心各特征的值也確定了。如果某一個特征在k個簇的質(zhì)心值較相似,或者層次不清,那么說明這個數(shù)據(jù)特征對分類不起作用,或者作用不明顯。因此,k-means聚類能發(fā)現(xiàn)哪些用戶行為對分類有效,哪些行為無用,以此來選擇對分類有效的數(shù)據(jù),拿這些有用的數(shù)據(jù)再深入聚類。

步驟四:用步驟三中計算出來的參數(shù)對賣場電視、用戶終端做gmm聚類,得到賣場電視和用戶終端的正態(tài)分布的期望和標準差,以及某一電視屬于所述賣場電視或用戶終端的概率,根據(jù)概率確定電視的歸屬屬性。

由于用戶和賣場的特征范圍沒有明顯的界定,更符合正態(tài)分布。k-means不能準確的聚出用戶和賣場的特征,用基于em算法(最大期望算法)做極大似然的gmm模型(混合高斯模型)對賣場、用戶終端進行聚類,分出賣場和用戶終端,并得到賣場和用戶的正態(tài)分布特征參數(shù)。

gmm算法認為所有數(shù)據(jù)組成的分布都是由多個高斯分布(即正態(tài)分布)混合而成。用gmm來對賣場和用戶聚類,認為賣場和用戶使用終端的行為服從各自的正態(tài)分布,兩個正態(tài)分布的特征有明顯差異。要使gmm中各高斯分布最優(yōu),就要找到各分布的極大似然值,而gmm的極大似然函數(shù)屬于凹函數(shù),凹函數(shù)的最大似然值在其所有輸入數(shù)據(jù)的均值處得到,因此,然均值最大。那么gmm的極大似然值最大,因此,通過em(期望最大)算法逼近gmm的最大似然值,求賣場和用戶的最優(yōu)分布。gmm聚類的過程就是通過大量終端有效分類數(shù)據(jù)不斷迭代計算,求最大期望的過程,當達到最大期望,得到兩個正態(tài)分布的特征(期望、方差),以及根據(jù)特征和終端數(shù)據(jù)計算出各終端屬于兩類的概率。后續(xù)分類時只需通過聚類得到的兩個分布的特征值,計算該終端在兩個分布中的概率即可,在某分布中概率更大,則屬于該類。

依據(jù)以上描述,工廠、賣場、用戶三種終端的特征和分類方法均已找出。同時,為了驗證模型的準確性,以及賣場和用戶使用行為是否有變化,采用了兩種驗證方法驗證當下模型的準確性,一是定期抽樣用戶終端,用其有效使用行為數(shù)據(jù)重新做分類驗證,看其是否依然滿足用戶概率大于賣場概率,計算分類失誤的比例。同時,定期隨機選擇賣場,調(diào)查賣場終端的部分mac地址,檢查此部分mac是否屬于賣場終端的mac,并計算分類失誤比例。分類比例大于p,重新收集數(shù)據(jù)做gmm聚類。

(二)屬性狀態(tài)更新:

電視從激活到報廢整個生命周期中歸屬狀態(tài)的轉(zhuǎn)換過程如圖1所示:首先,終端被激活有兩種可能,一種是激活當天開機時長小于等于5分鐘,且地理位置距離工廠較近,這時工廠激活,激活后變?yōu)閹齑?如圖1中步驟1)。另一種是非工廠激活(如步驟2),庫存終端賣出或者投放到賣場展示,則也變?yōu)榉枪S終端(如步驟3)。非工廠終端有兩種可能:賣場終端、用戶終端。根據(jù)以上描述中聚類得到的特征,以及終端上報的數(shù)據(jù)分別計算在兩個高斯分布中的概率,從而被分類為賣場終端或者用戶終端(如步驟4、5)。賣場終端在展示完成后基本上也會變?yōu)橛脩艚K端,因而,定期對賣場終端的數(shù)據(jù)分類,監(jiān)測賣場終端是否變?yōu)橛脩艚K端(如步驟6)。

由于工廠終端還會被運往賣場終端或者賣給用戶,賣場終端也可能賣給用戶,只有用戶終端屬性不會再變化,因此,本發(fā)明除了對未分類的終端進行分類外,還定期跟蹤工廠和賣場終端,直到他們變?yōu)橛脩艚K端,實現(xiàn)了終端歸屬屬性定期更新,動態(tài)變化。

實施例2

一種基于使用行為區(qū)分電視歸屬屬性的方法,參見圖2所示:

(1)首先,工廠測試終端的時間在5分鐘以內(nèi),且測試完成后終端作為庫存,不再開機。因此,工廠電視的特點:激活當天開機時長小于5分鐘,且激活后不再開機。

(2)將數(shù)據(jù)平臺上除工廠電視以外的所有電視可用的數(shù)據(jù)都整理出來,如終端與最近賣場的大概距離、某段時間內(nèi)平均整機開機時長、平均主場景的使用次數(shù)和時長、平均app的使用次數(shù)和時長。

(3)用這些數(shù)據(jù)進行k-means聚類,類型數(shù)量為6,觀察聚類后6類類型的質(zhì)心對應到各數(shù)據(jù)的值,如果某類數(shù)據(jù)在各質(zhì)心的值層次分明,那么這類數(shù)據(jù)能有效分類,如果某類數(shù)據(jù)在各質(zhì)心較相近,或毫無規(guī)律,那么,它對有效分類作用不大。經(jīng)過這樣的篩選,發(fā)現(xiàn)最有效的數(shù)據(jù)是終端與賣場的距離、整機開機時長。

(4)用終端和賣場的距離、此前10天整機開機作為聚類數(shù)據(jù)平均時長重新做k-means聚類,聚2類,聚類得到的質(zhì)心用于計算gmm算法的初始期望、方差,以及初始分布概率。

(5)用步驟(4)中計算出來的初始參數(shù)對聚類數(shù)據(jù)做gmm聚類,聚2類,聚類得到2個正態(tài)分布的期望和標準差,以及每一個用戶終端被分為以上兩種類型的概率,其中開機時長期望小,距離期望大的那一類為用戶類。根據(jù)概率對終端進行分類,概率大的那一類即為其被分的類型。

如圖3所示,終端屬性狀態(tài)更新:

對于數(shù)據(jù)平臺上已經(jīng)激活的電視終端,在聚類獲取特征時,即可被分為工廠、用戶或者賣場類型,具體步驟:

(1)每天新增的終端首先判斷當天開機時長是否小于5分鐘,且距離工廠較近,如果是,則為工廠終端,如果不是,則存為賣場或用戶狀態(tài)(如圖1)。

(2)每天檢查已被分為工廠的終端是否有開機,有開機,則此終端不再為工廠類,被置為賣場或者用戶狀態(tài)

(3)將10天前轉(zhuǎn)為賣場或者用戶狀態(tài)的用gmm聚類得到的兩類正態(tài)分布特征參數(shù),分別計算被分為用戶、賣場類型的概率,如果為賣場概率大,則被分為賣場類大于賣場類,否則為用戶類。

(4)每天計算賣場類與賣場的距離、前10天的平均開機時長,用這兩個數(shù)據(jù)和2類正態(tài)分類對賣場終端進行分類,檢查賣場類是否轉(zhuǎn)變?yōu)橛脩纛悺?/p>

(5)定期(周期較長)按1%抽樣用戶終端,用于賣場的距離、10天平均開機時長分類,計算被分為賣場類的比例;

(6)定期(周期較長)聯(lián)系20個賣場,查詢在賣場展示終端的mac,并查看這些mac被分為用戶終端的比例,與(5)中比例相加大于n%,將數(shù)據(jù)平臺上所有終端重新做gmm聚類。

以上實施步驟中,聚類過程的步驟做一次即可,而對于終端屬性狀態(tài)更新的步驟一般每天定時執(zhí)行。

綜上所述,本發(fā)明提出了一種基于電視使用行為分析電視歸屬狀態(tài)的算法,利用電視的開機時長、地理位置、ip狀態(tài)、對應用的使用情況等行為運用機器學習算法對電視的使用行為特征進行聚類,剔除工廠、賣場終端,最后剩下的就是用戶終端。此套方法可動態(tài)追蹤任何一臺電視從激活、庫存、到用戶或者賣場整個過程中歸屬屬性的變化。

本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其它實施例的不同之處,各個實施例之間相同相似部分相互參見即可。

在本說明書中所談到的“一個實施例”、“另一個實施例”、“實施例”、等,指的是結合該實施例描述的具體特征、結構或者特點包括在本申請概括性描述的至少一個實施例中。在說明書中多個地方出現(xiàn)同種表述不是一定指的是同一個實施例。進一步來說,結合任一實施例描述一個具體特征、結構或者特點時,所要主張的是結合其他實施例來實現(xiàn)這種特征、結構或者特點也落在本發(fā)明的范圍內(nèi)。

盡管這里參照本發(fā)明的多個解釋性實施例對本發(fā)明進行了描述,但是,應該理解,本領域技術人員可以設計出很多其他的修改和實施方式,這些修改和實施方式將落在本申請公開的原則范圍和精神之內(nèi)。更具體地說,在本申請公開和權利要求的范圍內(nèi),可以對主題組合布局的組成部件和/或布局進行多種變型和改進。除了對組成部件和/或布局進行的變型和改進外,對于本領域技術人員來說,其他的用途也將是明顯的。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1