最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備與流程

文檔序號(hào):41984258發(fā)布日期:2025-05-23 16:39閱讀:4來(lái)源:國(guó)知局
一種神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備與流程

本說(shuō)明書(shū)涉及神經(jīng)網(wǎng)絡(luò),尤其涉及一種神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備。


背景技術(shù):

1、神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(neural?architecture?search,?nas)是一種無(wú)需人工干預(yù),以自動(dòng)化的方式設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)架構(gòu)的技術(shù),旨在通過(guò)算法搜索最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),以提升神經(jīng)網(wǎng)絡(luò)模型在特定任務(wù)上的性能。

2、在nas技術(shù)中,采用可微代理模型對(duì)神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行評(píng)估。如果將可微代理模型的建??闯墒菍?duì)原始架構(gòu)空間的近似表征或代理表征,則可直接基于代理模型進(jìn)行架構(gòu)可微優(yōu)化。然而,現(xiàn)有技術(shù)的瓶頸在于,神經(jīng)網(wǎng)絡(luò)的架構(gòu)空間本身是不可微的離散空間,因此無(wú)法實(shí)現(xiàn)可微優(yōu)化。

3、為解決上述問(wèn)題,現(xiàn)有的nas技術(shù)通過(guò)構(gòu)造可微超網(wǎng)絡(luò)的方式,實(shí)現(xiàn)架構(gòu)空間的松弛化與可微優(yōu)化。然而,這一方式會(huì)耗費(fèi)過(guò)多成本在可微超網(wǎng)絡(luò)的構(gòu)造與訓(xùn)練上,極度依賴(lài)大量的算力、計(jì)算資源與時(shí)間,且最終的搜索性能有限。

4、因此,如何實(shí)現(xiàn)搜索成本較低、且采樣效率較高的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索是一個(gè)亟待解決的問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、本說(shuō)明書(shū)提供一種神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備,以至少部分地解決現(xiàn)有技術(shù)存在的上述問(wèn)題。

2、本說(shuō)明書(shū)采用下述技術(shù)方案:

3、本說(shuō)明書(shū)提供了一種神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法,包括:

4、根據(jù)目標(biāo)任務(wù)確定神經(jīng)網(wǎng)絡(luò)架構(gòu)的搜索空間,所述搜索空間包括網(wǎng)絡(luò)層的候選連接關(guān)系集合與候選操作集合;

5、根據(jù)所述搜索空間分別確定第一概率變量矩陣和第二概率變量矩陣的矩陣規(guī)模與行/列標(biāo)簽信息,分別初始化所述第一概率變量矩陣和第二概率變量矩陣中各元素的值,其中,所述第一概率變量矩陣為神經(jīng)網(wǎng)絡(luò)架構(gòu)的特征矩陣的概率分布表示,所述第二概率變量矩陣為神經(jīng)網(wǎng)絡(luò)架構(gòu)的鄰接矩陣的概率分布表示;

6、多次對(duì)所述第一概率變量矩陣和所述第二概率變量矩陣進(jìn)行采樣,得到多個(gè)矩陣對(duì);

7、將各矩陣對(duì)分別輸入預(yù)先訓(xùn)練的代理模型,得到所述代理模型根據(jù)預(yù)先訓(xùn)練得到的評(píng)估函數(shù)輸出的各矩陣對(duì)的評(píng)估值;

8、根據(jù)所述評(píng)估值調(diào)整所述代理模型包含的評(píng)估函數(shù),并根據(jù)調(diào)整后的評(píng)估函數(shù)的梯度優(yōu)化所述第一概率變量矩陣和所述第二概率變量矩陣;

9、重新基于優(yōu)化后的第一概率變量矩陣和所述第二概率變量矩陣重復(fù)執(zhí)行采樣及優(yōu)化過(guò)程,直到達(dá)到預(yù)設(shè)中止條件;

10、在所有采樣得到矩陣對(duì)中確定目標(biāo)矩陣對(duì),并根據(jù)所述目標(biāo)矩陣對(duì)構(gòu)建目標(biāo)神經(jīng)網(wǎng)絡(luò)。

11、可選地,根據(jù)目標(biāo)任務(wù)確定神經(jīng)網(wǎng)絡(luò)架構(gòu)的搜索空間,具體包括:

12、確定待構(gòu)建的目標(biāo)神經(jīng)網(wǎng)絡(luò)所屬的目標(biāo)任務(wù);

13、獲取所述目標(biāo)任務(wù)下的若干標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)模型,所述標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)模型為根據(jù)先驗(yàn)知識(shí)人工構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型;

14、根據(jù)各標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)模型中包含的網(wǎng)絡(luò)層與原子操作,確定搜索空間。

15、可選地,根據(jù)所述搜索空間分別確定第一概率變量矩陣和第二概率變量矩陣的矩陣規(guī)模與行/列標(biāo)簽信息,具體包括:

16、根據(jù)所述候選連接關(guān)系集合中采用的網(wǎng)絡(luò)層的數(shù)量與所述候選操作集合中包含的候選操作的數(shù)量,確定第一概率變量矩陣的矩陣規(guī)模,并根據(jù)所述候選連接關(guān)系集合中采用的網(wǎng)絡(luò)層的數(shù)量確定第二概率變量矩陣的矩陣規(guī)模。

17、可選地,預(yù)先訓(xùn)練代理模型,具體包括:

18、獲取所述目標(biāo)任務(wù)下的若干樣本神經(jīng)網(wǎng)絡(luò)模型;

19、針對(duì)每個(gè)樣本神經(jīng)網(wǎng)絡(luò)模型,對(duì)該樣本神經(jīng)網(wǎng)絡(luò)模型進(jìn)行能力測(cè)試,得到該樣本神經(jīng)網(wǎng)絡(luò)模型的第一標(biāo)注評(píng)估值;

20、確定該樣本神經(jīng)網(wǎng)絡(luò)模型的樣本特征矩陣和樣本鄰接矩陣;

21、將所述樣本特征矩陣和所述樣本鄰接矩陣輸入待訓(xùn)練的代理模型,得到所述代理模型根據(jù)待優(yōu)化的評(píng)估函數(shù)輸出的待優(yōu)化評(píng)估值;

22、根據(jù)所述待優(yōu)化評(píng)估值與所述第一標(biāo)注評(píng)估值之間的差異,對(duì)所述代理模型進(jìn)行訓(xùn)練。

23、可選地,對(duì)該樣本神經(jīng)網(wǎng)絡(luò)模型進(jìn)行能力測(cè)試,得到該樣本神經(jīng)網(wǎng)絡(luò)模型的第一標(biāo)注評(píng)估值,具體包括:

24、對(duì)該樣本神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,并將訓(xùn)練后的該樣本神經(jīng)網(wǎng)絡(luò)模型部署到硬件平臺(tái);

25、在所述硬件平臺(tái)上采用該樣本神經(jīng)網(wǎng)絡(luò)模型處理預(yù)先構(gòu)建的測(cè)試集,得到該樣本神經(jīng)網(wǎng)絡(luò)模型的能力指標(biāo),所述能力指標(biāo)至少包括推理精度、推理時(shí)延以及功耗;

26、根據(jù)所述能力指標(biāo)確定該樣本神經(jīng)網(wǎng)絡(luò)模型的第一標(biāo)注評(píng)估值。

27、可選地,根據(jù)所述評(píng)估值調(diào)整所述代理模型包含的評(píng)估函數(shù),具體包括:

28、針對(duì)每個(gè)矩陣對(duì),對(duì)根據(jù)該矩陣對(duì)構(gòu)建的神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行能力測(cè)試,得到該矩陣對(duì)的第二標(biāo)注評(píng)估值;

29、根據(jù)各矩陣對(duì)的第二標(biāo)注評(píng)估值與所述代理模型輸出的各矩陣對(duì)的評(píng)估值,對(duì)所述代理模型的參數(shù)進(jìn)行調(diào)整,以調(diào)整所述代理模型中的評(píng)估函數(shù)。

30、可選地,所述評(píng)估函數(shù)為關(guān)于所述第一概率變量矩陣和所述第二概率變量矩陣的函數(shù);

31、根據(jù)調(diào)整后的評(píng)估函數(shù)的梯度優(yōu)化所述第一概率變量矩陣和所述第二概率變量矩陣,具體包括:

32、根據(jù)所述第一概率變量矩陣抽取第一樣本矩陣,并根據(jù)所述第二概率變量矩陣抽取第二樣本矩陣;

33、分別確定所述評(píng)估函數(shù)關(guān)于所述第一概率變量矩陣的第一偏導(dǎo)數(shù)和所述評(píng)估函數(shù)關(guān)于所述第二概率變量矩陣的第二偏導(dǎo)數(shù);

34、將所述第一樣本矩陣代入所述第一偏導(dǎo)數(shù),得到所述第一概率變量矩陣的第一前向傳播梯度,并將所述第二樣本矩陣代入所述第二偏導(dǎo)數(shù),得到所述第二概率變量矩陣的第二前向傳播梯度;

35、根據(jù)所述第一前向傳播梯度對(duì)所述第一概率變量矩陣進(jìn)行優(yōu)化,并根據(jù)所述第二前向傳播梯度對(duì)所述第二概率變量矩陣進(jìn)行優(yōu)化。

36、本說(shuō)明書(shū)提供的一種神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索裝置,所述裝置包括:

37、確定模塊,用于根據(jù)目標(biāo)任務(wù)確定神經(jīng)網(wǎng)絡(luò)架構(gòu)的搜索空間,所述搜索空間包括網(wǎng)絡(luò)層的候選連接關(guān)系集合與候選操作集合;

38、初始化模塊,用于根據(jù)所述搜索空間分別確定第一概率變量矩陣和第二概率變量矩陣的矩陣規(guī)模與行/列標(biāo)簽信息,分別初始化所述第一概率變量矩陣和第二概率變量矩陣中各元素的值,其中,所述第一概率變量矩陣為神經(jīng)網(wǎng)絡(luò)架構(gòu)對(duì)應(yīng)的特征矩陣的概率分布表示,所述第二概率變量矩陣為神經(jīng)網(wǎng)絡(luò)架構(gòu)中對(duì)應(yīng)的鄰接矩陣的概率分布表示;

39、采樣模塊,用于多次對(duì)所述第一概率變量矩陣和所述第二概率變量矩陣進(jìn)行采樣,得到多個(gè)矩陣對(duì);

40、輸入模塊,用于將各矩陣對(duì)分別輸入預(yù)先訓(xùn)練的代理模型,得到所述代理模型根據(jù)預(yù)先訓(xùn)練得到的評(píng)估函數(shù)輸出的各矩陣對(duì)的評(píng)估值;

41、調(diào)整模塊,用于根據(jù)所述評(píng)估值調(diào)整所述代理模型包含的評(píng)估函數(shù),并根據(jù)調(diào)整后的評(píng)估函數(shù)的梯度優(yōu)化所述第一概率變量矩陣和所述第二概率變量矩陣;

42、循環(huán)模塊,用于重新基于優(yōu)化后的第一概率變量矩陣和所述第二概率變量矩陣重復(fù)執(zhí)行采樣及優(yōu)化過(guò)程,直到達(dá)到預(yù)設(shè)中止條件;

43、構(gòu)建模塊,用于在所有采樣得到矩陣對(duì)中確定目標(biāo)矩陣對(duì),并根據(jù)所述目標(biāo)矩陣對(duì)構(gòu)建目標(biāo)神經(jīng)網(wǎng)絡(luò)。

44、本說(shuō)明書(shū)提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法。

45、本說(shuō)明書(shū)提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法。

46、本說(shuō)明書(shū)采用的上述至少一個(gè)技術(shù)方案能夠達(dá)到以下有益效果:

47、在本說(shuō)明書(shū)提供的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法中,從上述方法中可以看出,根據(jù)目標(biāo)任務(wù)確定神經(jīng)網(wǎng)絡(luò)架構(gòu)的搜索空間,所述搜索空間包括網(wǎng)絡(luò)層的候選連接關(guān)系集合與候選操作集合;根據(jù)所述搜索空間分別確定第一概率變量矩陣和第二概率變量矩陣的矩陣規(guī)模與行/列標(biāo)簽信息,分別初始化所述第一概率變量矩陣和第二概率變量矩陣中各元素的值,其中,所述第一概率變量矩陣為神經(jīng)網(wǎng)絡(luò)架構(gòu)的特征矩陣的概率分布表示,所述第二概率變量矩陣為神經(jīng)網(wǎng)絡(luò)架構(gòu)的鄰接矩陣的概率分布表示;多次對(duì)所述第一概率變量矩陣和所述第二概率變量矩陣進(jìn)行采樣,得到多個(gè)矩陣對(duì);將各矩陣對(duì)分別輸入預(yù)先訓(xùn)練的代理模型,得到所述代理模型根據(jù)預(yù)先訓(xùn)練得到的評(píng)估函數(shù)輸出的各矩陣對(duì)的評(píng)估值;根據(jù)所述評(píng)估值調(diào)整所述代理模型包含的評(píng)估函數(shù),并根據(jù)調(diào)整后的評(píng)估函數(shù)的梯度優(yōu)化所述第一概率變量矩陣和所述第二概率變量矩陣;重新基于優(yōu)化后的第一概率變量矩陣和所述第二概率變量矩陣重復(fù)執(zhí)行采樣及優(yōu)化過(guò)程,直到達(dá)到預(yù)設(shè)中止條件;在所有采樣得到矩陣對(duì)中確定目標(biāo)矩陣對(duì),并根據(jù)所述目標(biāo)矩陣對(duì)構(gòu)建目標(biāo)神經(jīng)網(wǎng)絡(luò)。

48、在采用本說(shuō)明書(shū)提供的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法構(gòu)建目標(biāo)任務(wù)下的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型時(shí),可在確定搜索空間后,分別構(gòu)建第一概率變量矩陣和第二概率變量矩陣,依第一概率變量矩陣和第二概率變量矩陣采樣由特征矩陣和鄰接矩陣組成的矩陣對(duì);通過(guò)代理模型輸出矩陣對(duì)的評(píng)估值,基于此對(duì)代理模型進(jìn)行優(yōu)化,并利用優(yōu)化后的代理模型更新第一概率變量矩陣和第二概率變量矩陣;不斷重復(fù)采樣和優(yōu)化過(guò)程,直到滿(mǎn)足預(yù)設(shè)中止條件;最終在采樣得到的所有矩陣對(duì)中選擇出目標(biāo)矩陣對(duì)并構(gòu)建目標(biāo)神經(jīng)網(wǎng)絡(luò)模型。本方法利用架構(gòu)拓?fù)浣Y(jié)構(gòu)和候選操作特征的分布變量實(shí)現(xiàn)原始離散架構(gòu)空間的連續(xù)松弛化;通過(guò)網(wǎng)絡(luò)架構(gòu)的圖數(shù)據(jù)表示和編碼,以及基于圖神經(jīng)網(wǎng)絡(luò)的代理模型訓(xùn)練,實(shí)現(xiàn)對(duì)原始空間的代理表征;采用重參數(shù)化方法,分別實(shí)現(xiàn)了基于梯度的圖拓?fù)浣Y(jié)構(gòu)和特征矩陣的可微搜索;以離散架構(gòu)采樣、代理模型訓(xùn)練、架構(gòu)搜索在線、協(xié)同交替進(jìn)行的方式,端到端實(shí)現(xiàn)了架構(gòu)的優(yōu)化搜索。綜上所述,本方法對(duì)于任意架構(gòu)空間,無(wú)需預(yù)先定義用于代理模型預(yù)訓(xùn)練的數(shù)據(jù)點(diǎn)數(shù)量,僅需要確定好采樣架構(gòu)點(diǎn)總數(shù)作為搜索預(yù)定義開(kāi)銷(xiāo),即可完成神經(jīng)網(wǎng)絡(luò)架構(gòu)的搜索。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1