最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

基于雙注意力網(wǎng)絡(luò)和深度強化學(xué)習(xí)的多目標(biāo)柔性車間調(diào)度方法

文檔序號:41949290發(fā)布日期:2025-05-16 14:07閱讀:4來源:國知局
基于雙注意力網(wǎng)絡(luò)和深度強化學(xué)習(xí)的多目標(biāo)柔性車間調(diào)度方法

本發(fā)明屬于車間生產(chǎn)調(diào)度領(lǐng)域,具體涉及多目標(biāo)柔性車間靜態(tài)調(diào)度方法,用于車間生產(chǎn)計劃的調(diào)度與管理。


背景技術(shù):

1、隨著現(xiàn)代制造業(yè)的快速發(fā)展,傳統(tǒng)車間調(diào)度的固定模式確實已經(jīng)難以適應(yīng)多樣化、個性化的生產(chǎn)需求。在這種背景下,柔性作業(yè)車間調(diào)度問題(flexible?job?shopscheduling,?fjsp)的重要性日益凸顯。fjsp作為柔性制造系統(tǒng)的核心組成部分,其核心理念是靈活性和自適應(yīng)性。良好的調(diào)度方法不僅可以根據(jù)生產(chǎn)需求快速調(diào)整生產(chǎn)線的配置,還能優(yōu)化資源分配,從而提高生產(chǎn)效率。

2、在目前的生產(chǎn)實際中,盡管已有研究采用了深度強化學(xué)習(xí)(deep?reinforcementlearning,?drl)來解決fjsp問題,但這些解決方案相對于精確方法(如or-tools)的質(zhì)量仍有提升空間。此外,單目標(biāo)柔性作業(yè)車間調(diào)度問題的解決方案往往無法全面平衡生產(chǎn)環(huán)節(jié)中的各種影響因素,如生產(chǎn)速度、機器負(fù)載和能耗優(yōu)化等。這導(dǎo)致了資源浪費和成本增加,使得多目標(biāo)優(yōu)化成為了一個重要的研究方向。


技術(shù)實現(xiàn)思路

1、本發(fā)明為克服現(xiàn)有技術(shù)的不足之處,提出一種基于雙注意力網(wǎng)絡(luò)和深度強化學(xué)習(xí)的多目標(biāo)柔性車間調(diào)度方法,以期得到高質(zhì)量的生產(chǎn)調(diào)度方案,從而能提高整體生產(chǎn)效率,并能降低車間的運行成本。

2、為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下:

3、本發(fā)明一種基于雙注意力網(wǎng)絡(luò)和深度強化學(xué)習(xí)的靜態(tài)柔性車間調(diào)度方法的特點在于,包括如下步驟:

4、步驟1、獲取柔性作業(yè)車間調(diào)度的基本信息,包括:所有工件、每個工件對應(yīng)的工序,以及每個工序在不同機器上的加工時間;其中,令工件總數(shù)為n;機器總數(shù)為m;i,分別表示2個工件序號,i,=1,2,…,n;j,分別表示2道工序序號,j,=1,2,…,ni,ni表示第i個工件ji的工序數(shù);mk表示第k臺機器,其中,k表示機器序號,k=1,2,…,m;第i個工件ji的第j道工序為oij;

5、步驟2、基于所述基本信息,以最小化最大完工時間以及最小化機器總負(fù)荷為目標(biāo)函數(shù),構(gòu)建基于目標(biāo)函數(shù)和約束條件的柔性作業(yè)車間調(diào)度模型;

6、步驟3、將所述柔性作業(yè)車間調(diào)度模型轉(zhuǎn)化為馬爾可夫決策過程,并定義狀態(tài)、動作、狀態(tài)轉(zhuǎn)移和獎勵值;

7、步驟4、基于所述馬爾可夫決策過程中的狀態(tài),構(gòu)建雙注意力網(wǎng)絡(luò),用于提取工序和機器的特征信息;

8、步驟5、基于所述馬爾可夫決策過程中的動作以及雙注意力網(wǎng)絡(luò)提取的特征信息,構(gòu)建演員評論家網(wǎng)絡(luò),用于獲取給定狀態(tài)下的動作概率分布,選擇更高的累計獎勵值的動作,從而得到最優(yōu)調(diào)度方案。

9、本發(fā)明所述的基于雙注意力網(wǎng)絡(luò)和深度強化學(xué)習(xí)的靜態(tài)柔性車間調(diào)度方法的特點也在于,所述步驟2包括:

10、步驟2.1、利用式(1)建立最小最大完工時間的第一目標(biāo)函數(shù)f1:

11、??(1)

12、式(1)中,ci表示第i個工件ji的完成時間;

13、利用式(2)建立最小機器總負(fù)荷的第二目標(biāo)函數(shù)f2:

14、??(2)

15、式(2)中,xijk為布爾值,表示在第k臺機器mk上是否加工第i個工件ji的第j道工序,若在第k臺機器mk上加工第i個工件ji的第j道工序oij,則令xijk=1,否則,令xijk=0;表示第k臺機器mk上加工第i個工件ji的第j道工序oij的用時;

16、步驟2.2、利用式(3)和式(4)構(gòu)建每一個工件的工序先后順序約束:

17、??(3)

18、??(4)

19、式(3)-式(4)中,sij表示第i個工件ji的第j道工序oij的加工開始時間;cij表示第i個工件ji的第j道工序oij的加工完成時間;表示第i個工件ji的第j+1道工序oi(j+1)的加工開始時間;

20、利用式(5)構(gòu)建工件的完工時間的約束:

21、??(5)

22、式(5)中,cij表示第i個工件ji的的第j道工序oij的加工完成時間;cmax表示最大完工時間;

23、利用式(6)和式(7)構(gòu)建同一時刻同一臺機器只能加工一道工序的約束:

24、??(6)

25、??(7)

26、式(6)-式(7)中,b是一個正數(shù);表示第i個工件ji的第j道工序oij是否先于第個工件的第道工序在第k臺機器mk上加工,如果先于,則令=1,否則,令=0;

27、利用式(8)構(gòu)建同一時刻同一道工序只能且僅能被一臺機器加工的約束:

28、??(8)

29、式(8)中,mij表示第i個工件ji的第j道工序oij的可選加工機器數(shù)。

30、進一步的,所述步驟3包括:

31、步驟3.1、定義t時刻狀態(tài)st包括:第i個工件ji的第j道工序oij的特征向量;第k臺機器mk的特征向量;兼容的工序-機器對(oij,?mk)的特征向量h(oij,?mk);

32、步驟3.2、定義t時刻的動作at為t時刻選擇的工序-機器對(oij,?mk),表示t時刻使用第k臺機器mk加工第i個工件ji的第j道工序oij;

33、步驟3.3、定義狀態(tài)轉(zhuǎn)移:當(dāng)執(zhí)行t時刻的動作at后,更新t時刻狀態(tài)st,并得到t+1時刻狀態(tài)st+1;

34、步驟3.4、利用式(9)構(gòu)建t時刻的獎勵函數(shù):

35、??(9)

36、式(9)中,w1、w2為兩個權(quán)重系數(shù),用于平衡完工時間獎勵和負(fù)載獎勵;表示當(dāng)前狀態(tài)st和下一狀態(tài)st+1之間最大完成時間的差值;表示當(dāng)前狀態(tài)st和下一狀態(tài)st+1之間機器負(fù)載總和的差值;

37、步驟3.5、定義策略π(at|st),表示給定狀態(tài)st下選擇動作at的概率。

38、進一步的,所述步驟4中的雙注意力網(wǎng)絡(luò)包括:l層工序信息注意力塊、l層機器信息注意力塊、全局特征融合模塊:

39、步驟4.1、定義并初始化當(dāng)前層;定義當(dāng)前第層工序信息注意力塊輸出的第i個工件ji的第j道工序oij的特征向量為,并初始化;定義當(dāng)前第層機器信息注意力塊輸出的第k臺機器mk的特征向量,并初始化;

40、步驟4.2、所述工序信息注意力塊,用于捕捉工序間的依賴關(guān)系并編碼到工序的特征表示中,從而更新,得到第層工序信息注意力塊輸出的第i個工件ji的第j道工序oij的特征向量;

41、步驟4.3、所述機器信息注意力塊,用于捕捉機器間的競爭關(guān)系并編碼到機器的特征表示中,從而更新,得到第層工序信息注意力塊輸出的第k臺機器mk的特征向量;

42、步驟4.4、將賦值給后,返回步驟4.2順序執(zhí)行,直至得到第l層工序信息注意力塊輸出的第i個工件ji的第j道工序oij的特征向量以及第l層機器信息注意力塊輸出的第k臺機器mk的特征向量,從而使得所述全局特征融合模塊利用式(15)獲得全局特征表示:

43、??(15)

44、式(15)中,ou表示未完成的工序集合,表示未完成工序集合的工序個數(shù);mu表示空閑的機器集合,表示空閑機器集合的機器個數(shù)。

45、進一步的,所述步驟4.2包括:

46、步驟4.2.1、利用式(10)計算第i個工件ji的第j道工序oij與其自身以及相鄰工序間的第層注意力系數(shù),并利用softmax函數(shù)對進行歸一化,得到歸一化后的第層注意力系數(shù);

47、??(10)

48、式(10)中,為注意力機制的權(quán)重向量;表示第i個工件ji的第p道工序oip的第層特征向量,其中,p取值為j-1、j和j+1;表示線性變換矩陣;||表示向量連接操作;leakyrelu為激活函數(shù);t表示轉(zhuǎn)置;

49、步驟4.2.2、利用式(11)獲得第層第i個工件ji的第j道工序oij的特征向量:

50、??(11)

51、式(11)中,σ表示elu非線性激活函數(shù)。

52、進一步的,所述步驟4.3包括:

53、步驟4.3.1、利用式(12)計算第k臺機器mk和第q臺機器mq之間的第層競爭強度:

54、??(12)

55、式(12)中,表示第k臺機器和第q臺機器之間的第層工序競爭集合;表示所有工件中未安排的第層工序集合;

56、步驟4.3.2、利用式(13)計算第k臺機器mk和第q臺機器mq之間的第層注意力系數(shù),并利用softmax函數(shù)對進行歸一化,得到歸一化后的注意力系數(shù):

57、??(13)

58、式(13)中,表示第q臺機器mq的第層特征向量;表示第一線性變換矩陣;表示第二線性變換矩陣;表示注意力機制的權(quán)重向量;

59、步驟4.3.3、利用式(14)得到第層的第k臺機器mk的特征向量:

60、??(14)

61、式(14)中,nk表示所有與第k臺機器mk存在競爭關(guān)系的第q臺機器。

62、進一步的,所述步驟5中的演員評論家網(wǎng)絡(luò)包括:演員網(wǎng)絡(luò)、評論家網(wǎng)絡(luò):

63、步驟5.1、所述演員網(wǎng)絡(luò)利用式(16)計算在狀態(tài)st下選擇動作at的傾向性,并利用softmax函數(shù)對進行歸一化,得到t時刻狀態(tài)st下動作at被選擇的概率分布,并作為演員網(wǎng)絡(luò)的t時刻策略;

64、??(16)

65、式(16)中,mlpθ表示多層感知器;θ表示演員網(wǎng)絡(luò)的參數(shù);

66、步驟5.2、所述評論家網(wǎng)絡(luò)根據(jù)全局特征,利用式(17)計算在狀態(tài)st及其后所有時刻均采用t時刻策略的累計折舊獎勵值;

67、??(17)

68、式(17)中,是折扣因子;是在時刻獲得的獎勵值;d表示累計折舊獎勵值達(dá)到收斂的時刻;表示t時刻策略的數(shù)學(xué)期望;表示評論家網(wǎng)絡(luò)的參數(shù);

69、步驟5.3、采用近端策略優(yōu)化算法來訓(xùn)練演員評論家網(wǎng)絡(luò)的參數(shù),并得到最優(yōu)參數(shù)所對應(yīng)的演員評論家網(wǎng)絡(luò),從而輸出最優(yōu)調(diào)度方案。

70、本發(fā)明一種電子設(shè)備,包括存儲器以及處理器的特點在于,所述存儲器用于存儲支持處理器執(zhí)行所述的多目標(biāo)柔性車間調(diào)度方法的程序,所述處理器被配置為用于執(zhí)行所述存儲器中存儲的程序。

71、本發(fā)明一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)上存儲有計算機程序的特點在于,所述計算機程序被處理器運行時執(zhí)行所述的多目標(biāo)柔性車間調(diào)度方法的步驟。

72、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:

73、1、本發(fā)明充分考慮柔性作業(yè)車間的實際生產(chǎn)情況,引入了多項約束條件,構(gòu)建了多目標(biāo)優(yōu)化模型。通過采用基于雙注意力網(wǎng)絡(luò)的深度強化學(xué)習(xí)算法對模型進行求解,本發(fā)明能夠得出既耗時最短,又使機器總負(fù)載最小的調(diào)度方案。這一方案顯著提升了生產(chǎn)效率,同時降低了生產(chǎn)成本。

74、2、本發(fā)明提出了一種緊湊的狀態(tài)表示方法,用于精確描述fjsp中的工序和機器信息。隨著調(diào)度過程的進行,狀態(tài)空間會逐漸減小,能夠在車間調(diào)度方案優(yōu)化過程中更快的找到最優(yōu)調(diào)度方案,從而減少了排產(chǎn)的時間。

75、3、本發(fā)明設(shè)計了一種雙注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)由多個工序和機器消息注意力塊組成,能夠?qū)ば蚝蜋C器做深度的特征提取,提高了車間生產(chǎn)的效率。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1