本技術(shù)實(shí)施例涉及計(jì)算機(jī),具體涉及一種超參數(shù)處理的方法以及相關(guān)裝置。
背景技術(shù):
1、機(jī)器學(xué)習(xí)是人工智能領(lǐng)域最熱門的研究方向之一。在機(jī)器學(xué)習(xí)中,通常涉及到兩類參數(shù),超參數(shù)和普通參數(shù)。其中,超參數(shù)是在開始學(xué)習(xí)之前設(shè)置的運(yùn)行參數(shù),而不是通過模型訓(xùn)練得到的普通參數(shù)。超參數(shù)定義了關(guān)于機(jī)器學(xué)習(xí)模型的高層次的概念,如復(fù)雜性或者學(xué)習(xí)能力,其超參數(shù)的設(shè)置直接影響了模型的性能。因此,需要對(duì)超參數(shù)經(jīng)過反復(fù)試驗(yàn)和調(diào)整,以達(dá)到最佳的性能表現(xiàn)。
2、而在調(diào)整超參數(shù)的傳統(tǒng)方案中,通常是基于貝葉斯參數(shù)優(yōu)化器來實(shí)現(xiàn)。但是在貝葉斯參數(shù)優(yōu)化器進(jìn)行超參數(shù)優(yōu)化的過程中,需要消耗較多的計(jì)算資源來完成參數(shù)取值組合的分布擬合過程,并且隨著已探索的超參數(shù)的參數(shù)取值組合不斷增多,不僅導(dǎo)致需消耗更多地計(jì)算資源,而且優(yōu)化效率也欠佳。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供了一種超參數(shù)處理的方法以及相關(guān)裝置,可用于在調(diào)整超參數(shù)的過程中,節(jié)省計(jì)算資源,且提高優(yōu)化效率。
2、第一方面,本技術(shù)實(shí)施例提供了一種超參數(shù)處理的方法。該方法包括獲取n個(gè)第一集合,每個(gè)所述第一集合均包括第一反饋值和第一取值組合,所述第一取值組合包括多個(gè)超參數(shù)的參數(shù)取值,每個(gè)所述第一反饋值用于指示神經(jīng)網(wǎng)絡(luò)模型在對(duì)應(yīng)所述第一取值組合下的表征能力,n為大于或等于2的整數(shù);在所述n滿足預(yù)設(shè)條件時(shí),基于每個(gè)所述第一取值組合和每個(gè)所述第一反饋值確定p個(gè)第二集合,每個(gè)所述第二集合均包括第二反饋值和多個(gè)所述超參數(shù)的第二取值組合,所述第二反饋值用于指示所述神經(jīng)網(wǎng)絡(luò)模型在對(duì)應(yīng)所述第二取值組合下的預(yù)測(cè)表征能力,p為大于或等于2的整數(shù);基于每個(gè)所述第一取值組合和每個(gè)所述第一反饋值、以及每個(gè)所述第二取值組合和每個(gè)所述第二反饋值,計(jì)算對(duì)應(yīng)所述第二取值組合的評(píng)價(jià)分?jǐn)?shù);基于所有所述第二取值組合的評(píng)價(jià)分?jǐn)?shù)從p個(gè)所述第二取值組合中選取目標(biāo)取值組合,以用于對(duì)所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行模型調(diào)優(yōu)處理。
3、第二方面,本技術(shù)實(shí)施例提供一種超參數(shù)處理設(shè)備。該超參數(shù)處理設(shè)備包括獲取單元和處理單元。其中,獲取單元,用于獲取n個(gè)第一集合,每個(gè)所述第一集合均包括第一反饋值和第一取值組合,所述第一取值組合包括多個(gè)超參數(shù)的參數(shù)取值,每個(gè)所述第一反饋值用于指示神經(jīng)網(wǎng)絡(luò)模型在對(duì)應(yīng)所述第一取值組合下的表征能力,n為大于或等于2的整數(shù);處理單元,用于在所述n滿足預(yù)設(shè)條件時(shí),基于每個(gè)所述第一取值組合和每個(gè)所述第一反饋值確定p個(gè)第二集合,每個(gè)所述第二集合均包括第二反饋值和多個(gè)所述超參數(shù)的第二取值組合,所述第二反饋值用于指示所述神經(jīng)網(wǎng)絡(luò)模型在對(duì)應(yīng)所述第二取值組合下的預(yù)測(cè)表征能力,p為大于或等于2的整數(shù);所述處理單元,用于基于每個(gè)所述第一取值組合和每個(gè)所述第一反饋值、以及每個(gè)所述第二取值組合和每個(gè)所述第二反饋值,計(jì)算對(duì)應(yīng)所述第二取值組合的評(píng)價(jià)分?jǐn)?shù);所述處理單元,用于基于所有所述第二取值組合的評(píng)價(jià)分?jǐn)?shù)從p個(gè)所述第二取值組合中選取目標(biāo)取值組合,以用于對(duì)所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行模型調(diào)優(yōu)處理。
4、在一些可選的實(shí)施方式中,處理單元,用于:在所述n大于第一閾值時(shí),計(jì)算第三集合分別與q個(gè)第四集合中的每個(gè)所述第四集合之間的取值差異,得到所述第三集合分別與每個(gè)所述第四集合之間的距離向量,其中,所述q個(gè)第四集合為從所述n個(gè)第一集合中所選取的q個(gè)第一集合,所述第三集合為基于每個(gè)所述第四集合中的第一反饋值從所述q個(gè)第四集合中選取得到,1≤q<n,q為整數(shù);基于所有所述第三集合與所述第四集合之間的距離向量,計(jì)算預(yù)期梯度下降變化量;對(duì)每個(gè)所述超參數(shù)的參數(shù)范圍、以及q個(gè)所述第四集合中最大的第一反饋值和最小的第一反饋值進(jìn)行范數(shù)求解處理,得到第一對(duì)角向量模;基于所述第三集合、所述預(yù)期梯度下降變化量、所述第一對(duì)角向量模、預(yù)設(shè)行動(dòng)率以及預(yù)設(shè)衰減系數(shù),確定第二集合。
5、在另一些可選的實(shí)施方式中,處理單元,用于:對(duì)q個(gè)第一距離向量中的每個(gè)所述第一距離向量進(jìn)行取模處理,得到對(duì)應(yīng)所述第一距離向量的模數(shù),每個(gè)所述第一距離向量為所述第三集合分別與對(duì)應(yīng)的第四集合之間的距離向量;求解每個(gè)所述第一距離向量與對(duì)應(yīng)所述第一距離向量的模數(shù)之間的商,確定對(duì)應(yīng)所述第一距離向量的單位向量;將q個(gè)所述第一距離向量的單位向量進(jìn)行求和,得到預(yù)期梯度下降變化量。
6、在另一些可選的實(shí)施方式中,處理單元,用于:基于所述預(yù)期梯度下降變化量,計(jì)算所述預(yù)期梯度下降變化量的單位向量;對(duì)所述預(yù)期梯度下降變化量的單位向量、所述預(yù)設(shè)行動(dòng)率、所述預(yù)設(shè)衰減系數(shù)以及所述第一對(duì)角向量模進(jìn)行乘積處理,得到預(yù)期梯度值;對(duì)所述第三集合和所述預(yù)期梯度值進(jìn)行求和處理,得到第二集合。
7、在另一些可選的實(shí)施方式中,處理單元,用于:基于每個(gè)所述超參數(shù)的參數(shù)范圍,計(jì)算對(duì)應(yīng)所述超參數(shù)的參數(shù)區(qū)間長(zhǎng)度,并對(duì)所有所述超參數(shù)的參數(shù)區(qū)間長(zhǎng)度進(jìn)行范數(shù)求解處理,得到第一值;計(jì)算q個(gè)所述第四集合對(duì)應(yīng)最大的第一反饋值和最小的第一反饋值之間的差值,得到第二值;對(duì)所述第一值和所述第二值進(jìn)行范數(shù)求解處理,得到第一對(duì)角向量模。
8、在另一些可選的實(shí)施方式中,處理單元,用于:對(duì)所述預(yù)期梯度下降變化量進(jìn)行取模處理,得到所述預(yù)期梯度下降變化量的模數(shù);求解所述預(yù)期梯度下降變化量與所述預(yù)期梯度下降變化量的模數(shù)之間的商,得到所述預(yù)期梯度下降變化量的單位向量。
9、在另一些可選的實(shí)施方式中,處理單元,用于:將所述第三集合中的第一取值組合與所述預(yù)期梯度值進(jìn)行求和,得到第二取值組合;將所述第三集合中的第一反饋值與所述預(yù)期梯度值進(jìn)行求和,得到第二反饋值;基于所述第二取值組合和所述第二反饋值,得到第二集合。
10、在另一些可選的實(shí)施方式中,處理單元,用于:基于所述q個(gè)第四集合中的每個(gè)所述第一反饋值與第三反饋值,計(jì)算第三取值組合的梯度評(píng)價(jià)分?jǐn)?shù),所述第三反饋值為任意一個(gè)所述第二集合中的第二反饋值,所述第三取值組合為所述第三反饋值對(duì)應(yīng)的第二集合中的第二取值組合;基于第三取值組合、每個(gè)所述第四集合中的第一取值組合、每個(gè)所述超參數(shù)的參數(shù)范圍以及預(yù)設(shè)參數(shù)調(diào)節(jié)系數(shù),計(jì)算所述第三取值組合的距離評(píng)價(jià)分?jǐn)?shù);對(duì)所述第三取值組合的梯度評(píng)價(jià)分?jǐn)?shù)和所述第三取值組合的距離評(píng)價(jià)分?jǐn)?shù)求和,得到所述第三取值組合的評(píng)價(jià)分?jǐn)?shù)。
11、在另一些可選的實(shí)施方式中,處理單元,用于:分別計(jì)算所述q個(gè)第四集合中的每個(gè)所述第一反饋值與第三反饋值之間的第一差異值,并從q個(gè)所述第一差異值中選取目標(biāo)差異值,所述目標(biāo)差異值為所述q個(gè)第一差異值中的最小值;計(jì)算所述q個(gè)第四集合中最大的第一反饋值和最小的第一反饋值之間的第二差異值;計(jì)算所述目標(biāo)差異值與所述第二差異值之間的商,得到第三取值組合的梯度評(píng)價(jià)分?jǐn)?shù)。
12、在另一些可選的實(shí)施方式中,處理單元,用于:基于每個(gè)所述超參數(shù)的參數(shù)范圍,計(jì)算對(duì)應(yīng)所述超參數(shù)的參數(shù)區(qū)間長(zhǎng)度,并對(duì)所有所述超參數(shù)的參數(shù)區(qū)間長(zhǎng)度進(jìn)行范數(shù)求解處理,得到第二對(duì)角向量模;分別計(jì)算第三取值組合與每個(gè)所述第四集合中的第一取值組合之間的第一相似距離,并從q個(gè)所述第一相似距離中確定最小的第一相似距離;基于所述第二對(duì)角向量模、所述最小的第一相似距離以及所述預(yù)設(shè)調(diào)節(jié)系數(shù),計(jì)算所述第三取值組合的距離評(píng)價(jià)分?jǐn)?shù)。
13、在另一些可選的實(shí)施方式中,處理單元,用于:在所述n小于或等于第一閾值時(shí),通過隨機(jī)生成器對(duì)所述n個(gè)第一集合中的每個(gè)第一取值組合和每個(gè)所述第一反饋值進(jìn)行處理,生成p個(gè)第二集合;基于每個(gè)所述超參數(shù)的參數(shù)范圍,計(jì)算對(duì)應(yīng)所述超參數(shù)的參數(shù)區(qū)間長(zhǎng)度,并對(duì)所有所述超參數(shù)的參數(shù)區(qū)間長(zhǎng)度進(jìn)行范數(shù)求解處理,得到第二對(duì)角向量模;分別計(jì)算所述第四取值組合與每個(gè)所述第一取值組合之間的第二相似距離,并從所述第二相似距離中確定最小的第二相似距離,所述第四取值組合為任意一個(gè)所述第二集合中的第二取值組合;基于所述第二對(duì)角向量模、所述最小的第二相似距離以及所述預(yù)設(shè)調(diào)節(jié)系數(shù),計(jì)算距離評(píng)價(jià)分?jǐn)?shù),以得到對(duì)應(yīng)所述第四取值組合的評(píng)價(jià)分?jǐn)?shù)。
14、在另一些可選的實(shí)施方式中,處理單元,用于將最大所述評(píng)價(jià)分?jǐn)?shù)所對(duì)應(yīng)的第二取值組合選取為目標(biāo)取值組合。
15、在另一些可選的實(shí)施方式中,處理單元還用于:在將最大的所述評(píng)價(jià)分?jǐn)?shù)所對(duì)應(yīng)的第二取值組合選取為為目標(biāo)取值組合之后,在所述目標(biāo)取值組合中的每個(gè)所述超參數(shù)的參數(shù)取值不滿足對(duì)應(yīng)所述超參數(shù)的預(yù)設(shè)缺省值時(shí),基于每個(gè)所述超參數(shù)的參數(shù)范圍和預(yù)設(shè)調(diào)節(jié)精度計(jì)算對(duì)應(yīng)所述超參數(shù)的目標(biāo)缺省值;將每個(gè)所述超參數(shù)的參數(shù)取值調(diào)整為對(duì)應(yīng)所述超參數(shù)的所述目標(biāo)缺省值。
16、在另一些可選的實(shí)施方式中,處理單元還用于:在基于所有所述第二取值組合的評(píng)價(jià)分?jǐn)?shù)從p個(gè)所述第二取值組合中選取目標(biāo)取值組合之后,分別計(jì)算所述目標(biāo)取值組合與所述n個(gè)第一集合中的每個(gè)第一取值組合之間的第三相似距離;在每個(gè)所述第三相似距離均小于第二閾值時(shí),則基于所述目標(biāo)取值組合對(duì)所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行模型調(diào)優(yōu)處理。
17、本技術(shù)實(shí)施例第三方面提供了一種超參數(shù)處理設(shè)備,包括:存儲(chǔ)器、輸入/輸出(i/o)接口和存儲(chǔ)器。存儲(chǔ)器用于存儲(chǔ)程序指令。處理器用于執(zhí)行存儲(chǔ)器中的程序指令,以執(zhí)行上述第一方面的實(shí)施方式對(duì)應(yīng)的超參數(shù)處理的方法。
18、本技術(shù)實(shí)施例第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行以執(zhí)行上述第一方面的實(shí)施方式對(duì)應(yīng)的方法。
19、本技術(shù)實(shí)施例第五方面提供了一種包含指令的計(jì)算機(jī)程序產(chǎn)品,當(dāng)其在計(jì)算機(jī)或者處理器上運(yùn)行時(shí),使得計(jì)算機(jī)或者處理器執(zhí)行上述以執(zhí)行上述第一方面的實(shí)施方式對(duì)應(yīng)的方法。
20、從以上技術(shù)方案可以看出,本技術(shù)實(shí)施例具有以下優(yōu)點(diǎn):
21、本技術(shù)實(shí)施例中,獲取n個(gè)第一集合,而且每個(gè)第一集合均包括第一反饋值和第一取值組合,n為大于或等于2的整數(shù)。所描述的第一取值組合包括多個(gè)超參數(shù)的參數(shù)取值,每個(gè)第一反饋值可指示神經(jīng)網(wǎng)絡(luò)模型在對(duì)應(yīng)第一取值組合下的表征能力。在獲得n個(gè)第一集合后,通過判斷n是否滿足預(yù)設(shè)條件,進(jìn)而在n滿足預(yù)設(shè)條件的情況下,基于每個(gè)第一取值組合和每個(gè)第一反饋值確定p個(gè)第二集合,p為大于或等于2的整數(shù)。在每個(gè)第二集合中,均包括第二反饋值和多個(gè)超參數(shù)的第二取值組合。所描述的第二反饋值用于指示神經(jīng)網(wǎng)絡(luò)模型在對(duì)應(yīng)第二取值組合下的預(yù)測(cè)表征能力。這樣,再基于每個(gè)第一取值組合、每個(gè)第一反饋值、以及每個(gè)第二取值組合、每個(gè)第二反饋值計(jì)算對(duì)應(yīng)第二取值組合的評(píng)價(jià)分?jǐn)?shù),進(jìn)而基于所有第二取值組合的評(píng)價(jià)分?jǐn)?shù)從p個(gè)第二取值組合中選取目標(biāo)取值組合,從而將該目標(biāo)取值組合用于對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行模型調(diào)優(yōu)處理。也就是說,本技術(shù)實(shí)施例中在已知反饋值的第一取值組合的數(shù)目滿足預(yù)設(shè)條件的情況下,直接基于已知的第一反饋值和相應(yīng)的第一取值組合預(yù)測(cè)出候選的第二取值組合以及相應(yīng)的第二反饋值,進(jìn)而在評(píng)價(jià)出每個(gè)第二取值組合的評(píng)價(jià)分?jǐn)?shù)后,依賴于評(píng)價(jià)分?jǐn)?shù)從候選的第二取值組合中選取目標(biāo)取值組合。相較于傳統(tǒng)的貝葉斯參數(shù)調(diào)優(yōu)的方式,本技術(shù)中無需利用較多的計(jì)算資源來完成分布擬合中所需的參數(shù)取值組合的選取,不僅節(jié)省了計(jì)算資源,而且從候選的第二取值組合的評(píng)價(jià)分?jǐn)?shù)的角度考慮選取最優(yōu)的目標(biāo)取值組合,極大地提升后續(xù)模型優(yōu)化過程的優(yōu)化效率。