本發(fā)明屬于機器人認知控制相關(guān),更具體地,涉及一種機器人認知決策方法及系統(tǒng)。
背景技術(shù):
1、在智能制造、智慧服務(wù)、無人系統(tǒng)等領(lǐng)域蓬勃發(fā)展的當(dāng)下,機器人正迅速從結(jié)構(gòu)化封閉場景邁向動態(tài)開放環(huán)境。在此進程中,認知決策能力已成為機器人實現(xiàn)自主化與智能化的核心制約因素。高效的認知決策不僅要求機器人實時響應(yīng)環(huán)境變化,快速解析視覺、語音、觸覺等多模態(tài)傳感器信號,及時捕捉突發(fā)障礙、指令更新等動態(tài)信息;還要求機器人能夠融合經(jīng)驗知識,借助歷史行為數(shù)據(jù)與任務(wù)目標生成適應(yīng)性策略,如優(yōu)化路徑、預(yù)測人類意圖。
2、當(dāng)前主流的認知決策技術(shù)主要包括規(guī)則驅(qū)動系統(tǒng)、強化學(xué)習(xí)、多模態(tài)融合決策三類。規(guī)則驅(qū)動系統(tǒng)如有限狀態(tài)機、決策樹,具有邏輯透明、結(jié)果可預(yù)測的優(yōu)勢,但嚴重依賴人工預(yù)設(shè)規(guī)則,面對未定義場景,例如家庭機器人遭遇新型家具布局時便束手無策。強化學(xué)習(xí)雖支持在動態(tài)環(huán)境中自主學(xué)習(xí),卻忽視多模態(tài)信號整合,往往僅聚焦于單一模態(tài)的信息輸入,忽視其他模態(tài)信號所蘊含的豐富環(huán)境信息,這使得機器人在面對復(fù)雜多變且信息多元的真實場景時,決策依據(jù)片面,且試錯成本極高。多模態(tài)融合方案存在平均化陷阱,在跨模態(tài)沖突時,對沖突信號簡單處理,違背生物決策優(yōu)先級,比如當(dāng)“語音指令前進”與“視覺檢測障礙”出現(xiàn)矛盾時,缺乏有效的仲裁邏輯。這些問題嚴重限制了機器人在復(fù)雜場景下的決策能力,亟待新的思路與方法來解決。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的以上缺陷或改進需求,本發(fā)明提供了一種機器人認知決策方法及系統(tǒng),其目的在于解決現(xiàn)有技術(shù)存在的無法模仿人類同時利用感知、知識、內(nèi)部狀態(tài)和目標來完成高級認知功能和決策任務(wù),難以處理復(fù)雜動態(tài)環(huán)境中嘈雜、微弱或模糊的刺激,無法應(yīng)對實時挑戰(zhàn)、目標變化的問題。
2、為實現(xiàn)上述目的,按照本發(fā)明的一個方面,提供了一種機器人認知決策方法,包括:
3、實時接收n個任務(wù)目標對應(yīng)的聲音信息和視覺信息,其中n≥1;對每個任務(wù)目標對應(yīng)的聲音信息和視覺信息進行融合得到一個多模態(tài)刺激匯聚信號,不同任務(wù)目標對應(yīng)的融合時長用于反映對各任務(wù)目標基于激勵驅(qū)動的注意力的捕獲速度之間的差異;設(shè)置每個匯聚信號的起始時間為對相應(yīng)任務(wù)目標基于激勵驅(qū)動的注意力的起始時間,將該匯聚信號輸入時延處理單元確定對相應(yīng)任務(wù)目標基于激勵驅(qū)動的注意力的自維持時長,不同任務(wù)目標對應(yīng)的自維持時長用于反映對各任務(wù)目標注意力維持時長之間的差異,得到對每個任務(wù)目標的自下而上激勵驅(qū)動的注意力信號;
4、實時接收決策獎勵信息和情境信息;采用當(dāng)前所接收的決策獎勵信息,對用于執(zhí)行某個任務(wù)目標的當(dāng)前認知決策信息進行累計獎勵,當(dāng)累計獎勵值達到閾值時,形成對該某個任務(wù)目標的持續(xù)的自上而下獎勵強化的注意力信號;判斷當(dāng)前所接收的情境信息是否發(fā)生變化,若發(fā)生變化,則重置所有任務(wù)目標對應(yīng)的累計獎勵值;
5、對每個任務(wù)目標的自下而上激勵驅(qū)動的注意力信號和自上而下獎勵強化的注意力信號求和,將各任務(wù)目標對應(yīng)的求和結(jié)果中最大者進行映射得到用于執(zhí)行其中某個任務(wù)目標的當(dāng)前認知決策信息,實現(xiàn)機器人認知決策。
6、進一步,對每個任務(wù)目標對應(yīng)的聲音信息和視覺信息進行融合得到一個多模態(tài)刺激匯聚信號的實現(xiàn)方式為:
7、由設(shè)置于機器人中的傳感器生成所接收聲音信息和視覺信息的模擬信號,分別對每個模擬信號依次進行噪聲過濾、同步整合并編碼得到兩個尖峰信號;在每個任務(wù)目標對應(yīng)的兩個尖峰信號之間進行邏輯運算,得到該任務(wù)目標對應(yīng)的一個多模態(tài)刺激匯聚信號。
8、進一步,所述時延處理單元為基于憶阻器的時延處理電路。
9、進一步,形成對單任務(wù)目標的持續(xù)的自上而下獎勵強化的注意力信號的實現(xiàn)方式為:
10、形成表征當(dāng)前所接收決策獎勵信息的電信號,當(dāng)無決策獎勵信息輸入時,則表征對應(yīng)信息的電信號置為零;對表征當(dāng)前接收的決策獎勵信息的電信號以及表征當(dāng)前認知決策信息的電信號進行與運算,并對與運算結(jié)果進行累計積分,若積分信號達到閾值,則形成對當(dāng)前認知決策信息對應(yīng)任務(wù)目標的不間斷持續(xù)的自上而下獎勵強化的注意力信號。
11、按照本發(fā)明的另一方面,提供了一種機器人認知決策系統(tǒng),包括:視聽接收組件,激勵驅(qū)動的注意力控制模塊,情境緩沖模塊,中央執(zhí)行控制模塊;
12、所述視聽接收組件用于實時接收n個任務(wù)目標對應(yīng)的聲音信息和視覺信息,其中n≥1;
13、所述激勵驅(qū)動的注意力控制模塊用于對每個任務(wù)目標對應(yīng)的聲音信息和視覺信息進行融合得到一個多模態(tài)刺激匯聚信號,不同任務(wù)目標對應(yīng)的融合時長用于反映對各任務(wù)目標基于激勵驅(qū)動的注意力的捕獲速度之間的差異;設(shè)置每個匯聚信號的起始時間為對相應(yīng)任務(wù)目標基于激勵驅(qū)動的注意力的起始時間,將該匯聚信號輸入時延處理單元確定對相應(yīng)任務(wù)目標基于激勵驅(qū)動的注意力的自維持時長,不同任務(wù)目標對應(yīng)的自維持時長用于反映對各任務(wù)目標注意力維持時長之間的差異,得到對每個任務(wù)目標的自下而上激勵驅(qū)動的注意力信號;
14、所述情境緩沖模塊包含獎勵強化單元和情境控制單元,所述獎勵強化單元用于實時接收決策獎勵信息和情境信息;采用當(dāng)前所接收的決策獎勵信息,對用于執(zhí)行某個任務(wù)目標的當(dāng)前認知決策信息進行累計獎勵,當(dāng)累計獎勵值達到閾值時,形成對該某個任務(wù)目標的持續(xù)的自上而下獎勵強化的注意力信號;所述情境控制單元用于判斷當(dāng)前所接收的情境信息是否發(fā)生變化,若發(fā)生變化,則重置所有任務(wù)目標對應(yīng)的累計獎勵值;
15、所述中央執(zhí)行控制模塊用于對每個任務(wù)目標的自下而上激勵驅(qū)動的注意力信號和自上而下獎勵強化的注意力信號求和,將n個任務(wù)目標對應(yīng)的求和結(jié)果中最大者進行映射得到當(dāng)前認知決策信息。
16、進一步,所述視聽接收組件包括語音環(huán)和視覺空間板,分別用于基于傳感器接收聲音信息和視覺信息的模擬信號,并對每個模擬信號依次進行噪聲過濾、同步整合并編碼得到尖峰信號。
17、進一步,所述注意力控制模塊在對每個任務(wù)目標對應(yīng)的聲音信息和視覺信息進行融合得到一個多模態(tài)刺激匯聚信號時,實現(xiàn)方式為:在每個任務(wù)目標對應(yīng)的兩個尖峰信號之間進行邏輯運算,得到該任務(wù)目標對應(yīng)的一個多模態(tài)刺激匯聚信號。
18、進一步,所述時延處理單元為基于憶阻器的時延處理電路。
19、進一步,所述獎勵強化單元在形成對單任務(wù)目標的持續(xù)的自上而下獎勵強化的注意力信號時,實現(xiàn)方式為:
20、形成表征當(dāng)前所接收決策獎勵信息的電信號,當(dāng)無決策獎勵信息輸入時,則表征對應(yīng)信息的電信號置為零;對表征當(dāng)前接收的決策獎勵信息的電信號以及表征當(dāng)前認知決策信息的電信號進行與運算,并對與運算結(jié)果進行累計積分,若積分信號達到閾值,則形成對當(dāng)前認知決策信息對應(yīng)任務(wù)目標的不間斷持續(xù)的自上而下獎勵強化的注意力信號。
21、按照本發(fā)明的另一方面,提供了一種機器人,在執(zhí)行任務(wù)目標時實現(xiàn)如上所述的一種機器人認知決策方法的步驟。
22、總體而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,本發(fā)明提供的技術(shù)方案主要具有以下有益效果:
23、1.本發(fā)明提出一種機器人認知決策方法,對于每個任務(wù)目標決策選擇,都需要包含一條自下而上的注意力通路(視聽信息接收和基于激勵驅(qū)動的注意力信號生成)和一條自上而下的注意力通路(獎勵強化信息接收、情境信息接收和當(dāng)前決策反饋的認知決策信息,控制獎勵強化的注意力信號形成)。而最終的認知決策將比較自上而下和自下而上的注意力的綜合影響,也就是對每個任務(wù)目標的自下而上激勵驅(qū)動的注意力信號和自上而下獎勵強化的注意力信號求和,將n個任務(wù)目標對應(yīng)的求和結(jié)果中最大者進行映射得到用于執(zhí)行其中某個任務(wù)目標的當(dāng)前認知決策信息。本發(fā)明方法整合認知神經(jīng)科學(xué)中的工作記憶框架和自上而下、自下而上的兩種注意力機制,不僅能夠整合并編碼外界視聽模態(tài)信息,同時還從內(nèi)部知識經(jīng)驗中檢索相關(guān)信息,提供了一個連接感知、內(nèi)部狀態(tài)和行動的接口,從而實現(xiàn)目標導(dǎo)向的行為和決策。
24、2.本發(fā)明進一步還提出采用外部環(huán)境信息的模擬信號進行處理,模擬信號的強度體現(xiàn)了外界環(huán)境刺激的顯著度,能夠區(qū)分和處理不同的視聽輸入模式和不同的刺激顯著度,尖峰信號的形式能夠有效實現(xiàn)不同感官信息輸入模式和不同刺激顯著度下,自下而上注意力的捕獲速度和自維護時間的差異化,模擬出大腦對不同感官信息的處理和整合,以及不同認知需求下注意力資源的調(diào)整。