本發(fā)明屬于機(jī)器人運(yùn)動(dòng)領(lǐng)域,特別涉及一種基于人機(jī)協(xié)作的機(jī)器人感知與理解方法。
背景技術(shù):
隨著高端制造中生產(chǎn)多樣化的發(fā)展,人機(jī)協(xié)作將成為下一代機(jī)器人發(fā)展的趨勢(shì)。現(xiàn)有的機(jī)器人普遍存在示教周期長(zhǎng),難以理解抽象的命令以及缺乏在線感知能力,從而制約了機(jī)器人的發(fā)展。人機(jī)協(xié)作讓機(jī)器人從“主仆”關(guān)系變成合作“伙伴”。因此,在機(jī)器人還沒達(dá)到高度智能的局面下,最有效的方法是先感知和理解人類,再通過人類的協(xié)助感知和理解環(huán)境。這篇發(fā)明提出了一種基于人機(jī)協(xié)作的機(jī)器人感知與理解方法,一方面利用自然交互的信息感知與融合機(jī)制,通過“手把手”示教和“面對(duì)面”傳授等多模態(tài)感知方式提高機(jī)器人在線感知能力;另一方面利用面向人機(jī)協(xié)作的機(jī)器人自主學(xué)習(xí)方法,進(jìn)行目標(biāo)理解和任務(wù)學(xué)習(xí)。該發(fā)明利用人類的智能性,并通過人類最自然高效的交互方式進(jìn)行人機(jī)交流與協(xié)助,以提高機(jī)器人感知和理解的靈活性、智能性和適應(yīng)性。
技術(shù)實(shí)現(xiàn)要素:
這個(gè)發(fā)明提出了一種基于人機(jī)協(xié)作的機(jī)器人感知與理解方法,它允許操作者協(xié)助機(jī)器人感知和理解環(huán)境。本發(fā)明利用人類的智能性,并通過人類最自然高效的交互方式進(jìn)行人機(jī)交流與協(xié)助,以提高機(jī)器人感知和理解的靈活性、智能性和適應(yīng)性。
本發(fā)明包括如下步驟:
s1、視聽模態(tài)感知的自然交互;
s2、目標(biāo)描述和理解;
s3、任務(wù)示教和學(xué)習(xí)。
所述步驟s1包括以下步驟:
1)三維手勢(shì)數(shù)據(jù)獲取
本發(fā)明采用立體視覺或紅外成像等非接觸測(cè)量方式對(duì)人體進(jìn)行跟蹤識(shí)別,并對(duì)人手的三維手勢(shì)進(jìn)行捕捉,從而可以識(shí)別操作者的交互意圖并轉(zhuǎn)換成交互指令。在進(jìn)行非接觸測(cè)量系統(tǒng)所獲取的三維手勢(shì)數(shù)據(jù)中,帶噪聲的三維手勢(shì)數(shù)據(jù)具有不穩(wěn)定性、歧義性和模糊性。此外,操作者在交互過程中由于人為因素會(huì)出現(xiàn)肌肉抖動(dòng)等非意圖動(dòng)作導(dǎo)致交互指令具有非精確性。為了進(jìn)一步地提高數(shù)據(jù)的穩(wěn)定性和精確性,一方面,本發(fā)明采用結(jié)合自適應(yīng)區(qū)間卡爾曼濾波(adaptiveintervalkalmanfilter)與改進(jìn)粒子濾波(improvedparticlefilter)進(jìn)行手勢(shì)位置數(shù)據(jù)和姿態(tài)數(shù)據(jù)的融合估計(jì)。通過信息融合算法可以對(duì)位置和姿態(tài)的時(shí)空相關(guān)性進(jìn)行約束,從而盡可能地消除三維手勢(shì)數(shù)據(jù)的非穩(wěn)定性和歧義性。另一方面,本發(fā)明采用過阻尼方法對(duì)非意圖輸入數(shù)據(jù)進(jìn)行過濾,并通過引入虛擬彈簧系數(shù)進(jìn)一步提高交互精度。
粒子濾波基于蒙特卡洛方法,利用粒子集表示目標(biāo),通過尋找一組在狀態(tài)空間中傳播的隨機(jī)樣本來近似地表示概率密度函數(shù),用樣本均值代替積分運(yùn)算,進(jìn)而獲得系統(tǒng)狀態(tài)的最小方差估計(jì)的過程。在改進(jìn)粒子濾波(ipf)算法中,采用馬爾可夫鏈蒙特卡羅方法對(duì)重采樣后的粒子進(jìn)行處理,從而提高粒子的多樣化,避免標(biāo)準(zhǔn)粒子濾波的局部收斂現(xiàn)象,提高數(shù)據(jù)估計(jì)的準(zhǔn)確度。而粒子的權(quán)重計(jì)算需要通過結(jié)合卡爾曼濾波的位置估計(jì)結(jié)果得到。
由于三維手勢(shì)數(shù)據(jù)的位置和姿態(tài)在時(shí)空上存在一定的關(guān)聯(lián):手勢(shì)的位置,速度和加速度具有方向性,而方向則需要姿態(tài)所確定的本體坐標(biāo)系進(jìn)行計(jì)算得到,那么手勢(shì)的位置在三維方向上的疊加量需要姿態(tài)進(jìn)行估計(jì),故通過結(jié)合自適應(yīng)區(qū)間卡爾曼濾波估計(jì)得到位置和姿態(tài)的時(shí)空約束性可以提高數(shù)據(jù)估計(jì)的精度。由于準(zhǔn)確的位置數(shù)據(jù)可以更好地計(jì)算粒子的權(quán)重,從而得到準(zhǔn)確的姿態(tài)數(shù)據(jù),而準(zhǔn)確的姿態(tài)數(shù)據(jù)可以通過速度和加速度更好地估計(jì)位置數(shù)據(jù),故通過結(jié)合自適應(yīng)區(qū)間卡爾曼濾波和改進(jìn)粒子濾波對(duì)人手位置和姿態(tài)數(shù)據(jù)進(jìn)行融合,可以更好地估計(jì)三維手勢(shì)數(shù)據(jù),提高數(shù)據(jù)的準(zhǔn)確性和魯棒性。
2)自然語(yǔ)言指令獲取
基于自然語(yǔ)言理解的機(jī)器人交互方法側(cè)重于對(duì)相對(duì)復(fù)雜的用戶自然語(yǔ)言指令的理解,包括兩個(gè)模塊:設(shè)計(jì)控制指令語(yǔ)料庫(kù)和提取控制指令。
根據(jù)收集大量的控制指令語(yǔ)料庫(kù)dcontrol進(jìn)行分析所得,對(duì)于機(jī)器人的控制指令可以通過四個(gè)變量組成的一個(gè)控制向量形式進(jìn)行描述(cdir,copt,cval,cunit),其中cdir為對(duì)操作方位關(guān)鍵詞,copt和cval為一對(duì)操作描述,分別為操作關(guān)鍵詞和操作值,cunit為操作單位。自然語(yǔ)言理解的關(guān)鍵在于對(duì)一連串的文本提取出所包含的控制向量。那么,對(duì)于文本的分析問題可以轉(zhuǎn)換成一組文字的分類問題,本發(fā)明采用最大熵模型進(jìn)行分類。采用向量空間模型對(duì)文本進(jìn)行描述,對(duì)給定包含n個(gè)詞的文本,可定義n維特征向量表示該文本,用詞頻-逆文檔頻率(termfrequency-inversedocumentfrequency)對(duì)特征向量進(jìn)行加權(quán)分析。最大熵模型的主要思想是對(duì)已知的進(jìn)行建模,對(duì)未知的不做任何假設(shè),即建模時(shí)盡量符合已知信息,對(duì)未知信息部分使模型的熵最大,即不確定性最大。最大熵的原則是承認(rèn)已知事物。設(shè)文本特征向量為x,需要估計(jì)的操作者意圖向量為y,則利用最大熵方法對(duì)條件概率p(y|x)進(jìn)行建模,通過引入條件熵h(p(y|x))衡量條件概率p(y|x)分布的均勻性。通過最大熵模型,可以對(duì)操作者語(yǔ)音提取的文本中所包含的交互指令識(shí)別,并轉(zhuǎn)換成機(jī)器人控制指令控制機(jī)器人運(yùn)動(dòng)。
所述步驟s2包括以下步驟:
1)目標(biāo)描述
本發(fā)明通過操作者向機(jī)器人講解環(huán)境可以使得機(jī)器人可以快速地了解環(huán)境。
在目標(biāo)描述中,操作者主要是輔助機(jī)器人對(duì)目標(biāo)進(jìn)行識(shí)別和理解。定義一個(gè)n元組,如六元組組obj={種類,顏色,形狀,紋理,尺寸,柔軟性}對(duì)目標(biāo)進(jìn)行描述。機(jī)器人通過視覺對(duì)目標(biāo)進(jìn)行初步觀察后對(duì)目標(biāo)有一個(gè)大概的理解,包括目標(biāo)的顏色、形狀和紋理等,機(jī)器人通過帶有力覺反饋的末端接觸目標(biāo),以了解其軟硬程度。在機(jī)器人對(duì)目標(biāo)的操作過程中,操作者在線地對(duì)機(jī)器人進(jìn)行目標(biāo)描述和講解,以輔助機(jī)器人不斷深入地了解目標(biāo),并做正確的決策。當(dāng)機(jī)器人對(duì)目標(biāo)做出模棱兩可或錯(cuò)誤的決策時(shí),操作者輔助機(jī)器人或矯正機(jī)器人的錯(cuò)誤決策。
2)目標(biāo)理解
本發(fā)明采用深度學(xué)習(xí)方法進(jìn)行目標(biāo)識(shí)別。本發(fā)明采取一個(gè)兩階段的方法來進(jìn)行學(xué)習(xí)。首先,使用一個(gè)縮減的特征集來確定最佳候選集,然后,使用一個(gè)更大、更可靠的特征集來排列這些候選集。利用深度學(xué)習(xí)訓(xùn)練兩個(gè)不同大小的網(wǎng)絡(luò),小的用于計(jì)算候選集,大的用于重新排列候選檢測(cè)結(jié)果,從而避免復(fù)雜的手動(dòng)調(diào)整特征值。
機(jī)器人視覺系統(tǒng)是用于獲取外界視覺信息的工具,是通過計(jì)算機(jī)技術(shù)對(duì)類似于人類視覺信息處理的一種探索和模擬,機(jī)器視覺主要包括圖像獲取,預(yù)處理,分割,描述,識(shí)別和理解,其中理解可以看作是對(duì)環(huán)境的最高層次的認(rèn)知行為,識(shí)別出當(dāng)前目標(biāo)物體的標(biāo)記,與特征庫(kù)或模板相匹配,對(duì)目標(biāo)分類,為機(jī)器人的決策、行為控制以及人機(jī)交互提供依據(jù)。在圖像描述方面,本發(fā)明采用hog特征描述符對(duì)圖像中的特征進(jìn)行描述。hog算法首先將整幅圖像分成一定數(shù)量的子圖像,再將各個(gè)子圖像按照一定的規(guī)則分割成細(xì)胞單元,然后采集細(xì)胞單元中各像素點(diǎn)的梯度方向直方圖,計(jì)算各直方圖在子圖像中的密度,然后根據(jù)這個(gè)密度對(duì)子圖像中的各個(gè)細(xì)胞單元做歸一化處理。最后把這些直方圖組合起來構(gòu)成特征描述器。為了識(shí)別出目標(biāo)的類型,對(duì)hog特征進(jìn)行概率g(t)建模,特征值x是目標(biāo)類型,利用一個(gè)隨機(jī)變量
在人機(jī)協(xié)作模式中,機(jī)器人可以借助于人類的經(jīng)驗(yàn)知識(shí)對(duì)未知的物體進(jìn)行識(shí)別,或者從識(shí)別錯(cuò)誤中得到矯正,需要建立一個(gè)帶標(biāo)簽數(shù)據(jù)的訓(xùn)練模型,可以更新機(jī)器人的學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。在人類的協(xié)作下,一方面機(jī)器人可以通過人類的描述更好地了解未知物體的特征;另一方面,機(jī)器人可以通過人類的共享經(jīng)驗(yàn)正確地認(rèn)識(shí)物體。在學(xué)習(xí)過程中,目標(biāo)是求出使系統(tǒng)的識(shí)別精度最佳的參數(shù)θ。在本實(shí)例中,將人類輔助過程中產(chǎn)生的輸入數(shù)據(jù)作為一組特征值
所述步驟s3包括以下步驟:
1)任務(wù)示教
在任務(wù)示教過程中,本發(fā)明通過人機(jī)交互模塊,機(jī)器人可以通過操作者的手勢(shì)和語(yǔ)言感知操作者的意圖。在示教前,操作者先檢查機(jī)器人是否有與任務(wù)相關(guān)的知識(shí)、工作環(huán)境以及操縱對(duì)象的相關(guān)能力,接著將所需要的知識(shí)授予給機(jī)器人。操作者通過陳述任務(wù)名稱、子任務(wù)的數(shù)量和操作對(duì)象的屬性等,同時(shí)包括用相應(yīng)的手勢(shì)動(dòng)作輔助語(yǔ)音進(jìn)行相關(guān)的講解。操作者接著將整個(gè)任務(wù)分析給機(jī)器人,允許機(jī)器人了解相鄰的子任務(wù)和總體的任務(wù)目標(biāo)之間的過渡動(dòng)作,從而可以整合所有子任務(wù)的信息。通過使用自然的手勢(shì)交互和基于自然語(yǔ)言理解交互方式對(duì)整個(gè)任務(wù)進(jìn)行完整的描述,在子任務(wù)的安排時(shí),充分利用操作者的經(jīng)驗(yàn)幫助機(jī)器人對(duì)任務(wù)的軌跡進(jìn)行分段規(guī)劃。在操作者對(duì)整個(gè)任務(wù)進(jìn)行描述后,機(jī)器人可以利用運(yùn)動(dòng)學(xué)原理通過分段的示教任務(wù)軌跡進(jìn)行學(xué)習(xí)。
2)任務(wù)學(xué)習(xí)
在機(jī)器人作業(yè)過程中,操作者可以始終保持在線教導(dǎo)機(jī)器人,以不斷地修正機(jī)器人的決策。對(duì)此,本發(fā)明利用強(qiáng)化學(xué)習(xí)模型進(jìn)行建模。操作者通過不斷的給予機(jī)器人行為評(píng)價(jià),通過獎(jiǎng)勵(lì)和懲罰信號(hào)不斷修正機(jī)器人的行為。強(qiáng)化學(xué)習(xí)用一個(gè)4元組(s,a,t,r)來表示,其中s表示有限的環(huán)境狀態(tài)集,a為對(duì)應(yīng)每一狀態(tài)可能的有限動(dòng)作集;t表示從狀態(tài)-動(dòng)作對(duì)到另一狀態(tài)的轉(zhuǎn)換函數(shù),t:s×a→s;r為狀態(tài)-動(dòng)作對(duì)的強(qiáng)化函數(shù),一般返回一個(gè)實(shí)數(shù)強(qiáng)化值,
機(jī)器人如果在完成學(xué)習(xí)任務(wù)的過程中遇到困難,就向操作者尋求幫助。接著,機(jī)器人可以將學(xué)習(xí)到的任務(wù)付諸實(shí)際并完善自身的知識(shí)庫(kù)。機(jī)器人可以通過手眼相機(jī)觀察工作環(huán)境,確定關(guān)鍵的目標(biāo)和物件的位姿,通過將自身學(xué)習(xí)到的任務(wù)軌跡應(yīng)用到給定的任務(wù)計(jì)劃中來形成它的實(shí)際工作軌跡,接著通過操作者的實(shí)時(shí)反饋不斷地修正自身學(xué)習(xí)到的任務(wù)經(jīng)驗(yàn)。
本發(fā)明相對(duì)于現(xiàn)有技術(shù)具有如下的優(yōu)點(diǎn)及效果:
本發(fā)明提出了一種基于人機(jī)協(xié)作的機(jī)器人感知與理解方法,一方面利用自然交互的信息感知與融合機(jī)制,通過“手把手”示教和“面對(duì)面”傳授等多模態(tài)感知方式提高機(jī)器人在線感知能力;另一方面利用面向人機(jī)協(xié)作的機(jī)器人自主學(xué)習(xí)方法,進(jìn)行目標(biāo)理解和任務(wù)學(xué)習(xí)。該發(fā)明利用人類的智能性,并通過人類最自然高效的交互方式進(jìn)行人機(jī)交流與協(xié)助,以提高機(jī)器人感知和理解的靈活性、智能性和適應(yīng)性。
附圖說明
圖1是基于人機(jī)協(xié)作的機(jī)器人感知與理解方法流程圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此實(shí)施例。
本實(shí)例包括如下步驟:
s1、視聽模態(tài)感知的自然交互;
s2、目標(biāo)描述和理解;
s3、任務(wù)示教和學(xué)習(xí)。
所述步驟s1包括以下步驟:
1)三維手勢(shì)數(shù)據(jù)獲取
本發(fā)明采用立體視覺或紅外成像等非接觸測(cè)量方式對(duì)人體進(jìn)行跟蹤識(shí)別,并對(duì)人手的三維手勢(shì)進(jìn)行捕捉,從而可以識(shí)別操作者的交互意圖并轉(zhuǎn)換成交互指令。在進(jìn)行非接觸測(cè)量系統(tǒng)所獲取的三維手勢(shì)數(shù)據(jù)中,帶噪聲的三維手勢(shì)數(shù)據(jù)具有不穩(wěn)定性、歧義性和模糊性。此外,操作者在交互過程中由于人為因素會(huì)出現(xiàn)肌肉抖動(dòng)等非意圖動(dòng)作導(dǎo)致交互指令具有非精確性。為了進(jìn)一步地提高數(shù)據(jù)的穩(wěn)定性和精確性,一方面,本發(fā)明采用結(jié)合自適應(yīng)區(qū)間卡爾曼濾波(adaptiveintervalkalmanfilter)與改進(jìn)粒子濾波(improvedparticlefilter)進(jìn)行手勢(shì)位置數(shù)據(jù)和姿態(tài)數(shù)據(jù)的融合估計(jì)。通過信息融合算法可以對(duì)位置和姿態(tài)的時(shí)空相關(guān)性進(jìn)行約束,從而盡可能地消除三維手勢(shì)數(shù)據(jù)的非穩(wěn)定性和歧義性。另一方面,本發(fā)明采用過阻尼方法對(duì)非意圖輸入數(shù)據(jù)進(jìn)行過濾,并通過引入虛擬彈簧系數(shù)進(jìn)一步提高交互精度。
自適應(yīng)區(qū)間卡爾曼濾波(aikf)是一種高效率的遞歸濾波器,可以在噪聲參數(shù)和動(dòng)態(tài)模型參數(shù)未知的情況下,利用k-1時(shí)刻的狀態(tài)準(zhǔn)確地估計(jì)k時(shí)刻的狀態(tài)。為了可以使卡爾曼濾波更好地估計(jì)人手位置數(shù)據(jù),在本實(shí)例中,引入了人手速度和人手加速度的變量。aikf的狀態(tài)轉(zhuǎn)換矩陣可以根據(jù)位移、速度和加速度之間的關(guān)系進(jìn)行設(shè)計(jì)。輸入矩陣則由重力加速度決定。aikf通過設(shè)置對(duì)應(yīng)的區(qū)間進(jìn)行準(zhǔn)確估計(jì),從而獲得比標(biāo)準(zhǔn)卡爾曼濾波更好的估計(jì)精度。
粒子濾波基于蒙特卡洛方法,利用粒子集表示目標(biāo),通過尋找一組在狀態(tài)空間中傳播的隨機(jī)樣本來近似地表示概率密度函數(shù),用樣本均值代替積分運(yùn)算,進(jìn)而獲得系統(tǒng)狀態(tài)的最小方差估計(jì)的過程。在改進(jìn)粒子濾波(ipf)算法中,采用馬爾可夫鏈蒙特卡羅方法對(duì)重采樣后的粒子進(jìn)行處理,從而提高粒子的多樣化,避免標(biāo)準(zhǔn)粒子濾波的局部收斂現(xiàn)象,提高數(shù)據(jù)估計(jì)的準(zhǔn)確度。而粒子的權(quán)重計(jì)算需要通過結(jié)合卡爾曼濾波的位置估計(jì)結(jié)果得到。
由于三維手勢(shì)數(shù)據(jù)的位置和姿態(tài)在時(shí)空上存在一定的關(guān)聯(lián):手勢(shì)的位置,速度和加速度具有方向性,而方向則需要姿態(tài)所確定的本體坐標(biāo)系進(jìn)行計(jì)算得到,那么手勢(shì)的位置在三維方向上的疊加量需要姿態(tài)進(jìn)行估計(jì),故通過結(jié)合自適應(yīng)區(qū)間卡爾曼濾波估計(jì)得到位置和姿態(tài)的時(shí)空約束性可以提高數(shù)據(jù)估計(jì)的精度。由于準(zhǔn)確的位置數(shù)據(jù)可以更好地計(jì)算粒子的權(quán)重,從而得到準(zhǔn)確的姿態(tài)數(shù)據(jù),而準(zhǔn)確的姿態(tài)數(shù)據(jù)可以通過速度和加速度更好地估計(jì)位置數(shù)據(jù),故通過結(jié)合自適應(yīng)區(qū)間卡爾曼濾波和改進(jìn)粒子濾波對(duì)人手位置和姿態(tài)數(shù)據(jù)進(jìn)行融合,可以更好地估計(jì)三維手勢(shì)數(shù)據(jù),提高數(shù)據(jù)的準(zhǔn)確性和魯棒性。
2)自然語(yǔ)言指令獲取
基于自然語(yǔ)言理解的機(jī)器人交互方法側(cè)重于對(duì)相對(duì)復(fù)雜的用戶自然語(yǔ)言指令的理解。對(duì)于面向機(jī)器人交互的自然語(yǔ)言理解方法的難點(diǎn)在于如何把自然語(yǔ)言所表達(dá)的意圖轉(zhuǎn)化成相應(yīng)的機(jī)器人控制指令,在本實(shí)例中,對(duì)于語(yǔ)音識(shí)別并進(jìn)行文本提取采用微軟的speech識(shí)別算法實(shí)現(xiàn)。面向機(jī)器人交互的自然語(yǔ)言理解框架主要包括兩個(gè)模塊:設(shè)計(jì)控制指令語(yǔ)料庫(kù)和提取控制指令。
根據(jù)收集大量的控制指令語(yǔ)料庫(kù)dcontrol進(jìn)行分析所得,對(duì)于機(jī)器人的控制指令可以通過四個(gè)變量組成的一個(gè)控制向量形式進(jìn)行描述(cdir,copt,cval,cunit),其中cdir為對(duì)操作方位關(guān)鍵詞,copt和cval為一對(duì)操作描述,分別為操作關(guān)鍵詞和操作值,cunit為操作單位。自然語(yǔ)言理解的關(guān)鍵在于對(duì)一連串的文本提取出所包含的控制向量。那么,對(duì)于文本的分析問題可以轉(zhuǎn)換成一組文字的分類問題,本發(fā)明采用最大熵模型進(jìn)行分類。采用向量空間模型對(duì)文本進(jìn)行描述,對(duì)給定包含n個(gè)詞的文本,可定義n維特征向量表示該文本,用詞頻-逆文檔頻率(termfrequency-inversedocumentfrequency)對(duì)特征向量進(jìn)行加權(quán)分析。最大熵模型的主要思想是對(duì)已知的進(jìn)行建模,對(duì)未知的不做任何假設(shè),即建模時(shí)盡量符合已知信息,對(duì)未知信息部分使模型的熵最大,即不確定性最大。最大熵的原則是承認(rèn)已知事物。設(shè)文本特征向量為x,需要估計(jì)的操作者意圖向量為y,則利用最大熵方法對(duì)條件概率p(y|x)進(jìn)行建模,通過引入條件熵h(p(y|x))衡量條件概率p(y|x)分布的均勻性。通過最大熵模型,可以對(duì)操作者語(yǔ)音提取的文本中所包含的交互指令識(shí)別,并轉(zhuǎn)換成機(jī)器人控制指令控制機(jī)器人運(yùn)動(dòng)。
結(jié)合語(yǔ)言和手勢(shì)的方法進(jìn)行交互,在本實(shí)例中,操作者發(fā)出指令“向這個(gè)方向移動(dòng)大概3毫米”,同時(shí)操作者用手指指向某一個(gè)方向,機(jī)器人通過自然語(yǔ)言得到的操作指令是“移動(dòng)”,方向?yàn)椴僮髡呤种傅姆较?,移?dòng)量為“3毫米”。
所述步驟s2包括以下步驟:
1)目標(biāo)描述
本發(fā)明通過操作者向機(jī)器人講解環(huán)境可以使得機(jī)器人可以快速地了解環(huán)境。
在目標(biāo)描述中,操作者主要是輔助機(jī)器人對(duì)目標(biāo)進(jìn)行識(shí)別和理解。定義一個(gè)n元組obj={category,color,shape,texture,size,soft}對(duì)目標(biāo)進(jìn)行描述。機(jī)器人通過視覺對(duì)目標(biāo)進(jìn)行初步觀察后對(duì)目標(biāo)有一個(gè)大概的理解,包括目標(biāo)的顏色、形狀和紋理等,機(jī)器人通過帶有力覺反饋的末端接觸目標(biāo),以了解其軟硬程度。操作者對(duì)目標(biāo)進(jìn)行更詳細(xì)的說明,在本實(shí)例中,對(duì)于裝滿水的水杯,操作者說明夾持位置,水平夾持比垂直夾持更穩(wěn)當(dāng)。在機(jī)器人對(duì)目標(biāo)的操作過程中,操作者在線地對(duì)機(jī)器人進(jìn)行目標(biāo)描述和講解,以輔助機(jī)器人不斷深入地了解目標(biāo),并做正確的決策。當(dāng)機(jī)器人對(duì)目標(biāo)做出模棱兩可或錯(cuò)誤的決策時(shí),操作者輔助機(jī)器人或矯正機(jī)器人的錯(cuò)誤決策。
2)目標(biāo)理解
本發(fā)明采用深度學(xué)習(xí)方法進(jìn)行目標(biāo)識(shí)別。本發(fā)明采取一個(gè)兩階段的方法來進(jìn)行學(xué)習(xí)。首先,使用一個(gè)縮減的特征集來確定最佳候選集,然后,使用一個(gè)更大、更可靠的特征集來排列這些候選集。利用深度學(xué)習(xí)訓(xùn)練兩個(gè)不同大小的網(wǎng)絡(luò),小的用于計(jì)算候選集,大的用于重新排列候選檢測(cè)結(jié)果,從而避免復(fù)雜的手動(dòng)調(diào)整特征值。
機(jī)器人視覺系統(tǒng)是用于獲取外界視覺信息的工具,是通過計(jì)算機(jī)技術(shù)對(duì)類似于人類視覺信息處理的一種探索和模擬,機(jī)器視覺主要包括圖像獲取,預(yù)處理,分割,描述,識(shí)別和理解,其中理解可以看作是對(duì)環(huán)境的最高層次的認(rèn)知行為,識(shí)別出當(dāng)前目標(biāo)物體的標(biāo)記,與特征庫(kù)或模板相匹配,對(duì)目標(biāo)分類,為機(jī)器人的決策、行為控制以及人機(jī)交互提供依據(jù)。在圖像描述方面,本發(fā)明采用hog特征描述符對(duì)圖像中的特征進(jìn)行描述。hog算法首先將整幅圖像分成一定數(shù)量的子圖像,再將各個(gè)子圖像按照一定的規(guī)則分割成細(xì)胞單元,然后采集細(xì)胞單元中各像素點(diǎn)的梯度方向直方圖,計(jì)算各直方圖在子圖像中的密度,然后根據(jù)這個(gè)密度對(duì)子圖像中的各個(gè)細(xì)胞單元做歸一化處理。最后把這些直方圖組合起來構(gòu)成特征描述器。為了識(shí)別出目標(biāo)的類型,對(duì)hog特征進(jìn)行概率g(t)建模,特征值
在人機(jī)協(xié)作模式中,機(jī)器人可以借助于人類的經(jīng)驗(yàn)知識(shí)對(duì)未知的物體進(jìn)行識(shí)別,或者從識(shí)別錯(cuò)誤中得到矯正,需要建立一個(gè)帶標(biāo)簽數(shù)據(jù)的訓(xùn)練模型,可以更新機(jī)器人的學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。在人類的協(xié)作下,一方面機(jī)器人可以通過人類的描述更好地了解未知物體的特征;另一方面,機(jī)器人可以通過人類的共享經(jīng)驗(yàn)正確地認(rèn)識(shí)物體。在學(xué)習(xí)過程中,目標(biāo)是求出使系統(tǒng)的識(shí)別精度最佳的參數(shù)θ。在本實(shí)例中,將人類輔助過程中產(chǎn)生的輸入數(shù)據(jù)作為一組特征值
所述步驟s3包括以下步驟:
1)任務(wù)示教
在任務(wù)示教過程中,本發(fā)明通過人機(jī)交互模塊,機(jī)器人可以通過操作者的手勢(shì)和語(yǔ)言感知操作者的意圖。在示教前,操作者先檢查機(jī)器人是否有與任務(wù)相關(guān)的知識(shí)、工作環(huán)境以及操縱對(duì)象的相關(guān)能力,接著將所需要的知識(shí)授予給機(jī)器人。操作者通過陳述任務(wù)名稱、子任務(wù)的數(shù)量和操作對(duì)象的屬性等,同時(shí)包括用相應(yīng)的手勢(shì)動(dòng)作輔助語(yǔ)音進(jìn)行相關(guān)的講解。操作者接著將整個(gè)任務(wù)分析給機(jī)器人,允許機(jī)器人了解相鄰的子任務(wù)和總體的任務(wù)目標(biāo)之間的過渡動(dòng)作,從而可以整合所有子任務(wù)的信息。通過使用自然的手勢(shì)交互和基于自然語(yǔ)言理解交互方式對(duì)整個(gè)任務(wù)進(jìn)行完整的描述,在本實(shí)例中,通過諸如“首先”、“然后”、“下一個(gè)子任務(wù)”等語(yǔ)音對(duì)子任務(wù)片段進(jìn)行分割,在子任務(wù)的安排時(shí),充分利用操作者的經(jīng)驗(yàn)幫助機(jī)器人對(duì)任務(wù)的軌跡進(jìn)行分段規(guī)劃。在操作者對(duì)整個(gè)任務(wù)進(jìn)行描述后,機(jī)器人可以利用運(yùn)動(dòng)學(xué)原理通過分段的示教任務(wù)軌跡進(jìn)行學(xué)習(xí)。
2)任務(wù)學(xué)習(xí)
在機(jī)器人作業(yè)過程中,操作者可以始終保持在線教導(dǎo)機(jī)器人,以不斷地修正機(jī)器人的決策。在本實(shí)例中,操作者主要“告訴”機(jī)器人“那些可以做”,“那些不可以做”,“那些應(yīng)該這樣做”,“那些不應(yīng)該這樣做”等,以調(diào)整機(jī)器人的行為。對(duì)此,本發(fā)明利用強(qiáng)化學(xué)習(xí)模型進(jìn)行建模。操作者通過不斷的給予機(jī)器人行為評(píng)價(jià),通過獎(jiǎng)勵(lì)和懲罰信號(hào)不斷修正機(jī)器人的行為。強(qiáng)化學(xué)習(xí)用一個(gè)4元組(s,a,t,r)來表示,其中s表示有限的環(huán)境狀態(tài)集,a為對(duì)應(yīng)每一狀態(tài)可能的有限動(dòng)作集;t表示從狀態(tài)-動(dòng)作對(duì)到另一狀態(tài)的轉(zhuǎn)換函數(shù),t:s×a→s;r為狀態(tài)-動(dòng)作對(duì)的強(qiáng)化函數(shù),一般返回一個(gè)實(shí)數(shù)強(qiáng)化值,
機(jī)器人如果在完成學(xué)習(xí)任務(wù)的過程中遇到困難,就向操作者尋求幫助。接著,機(jī)器人可以將學(xué)習(xí)到的任務(wù)付諸實(shí)際并完善自身的知識(shí)庫(kù)。機(jī)器人可以通過手眼相機(jī)觀察工作環(huán)境,確定關(guān)鍵的目標(biāo)和物件的位姿,通過將自身學(xué)習(xí)到的任務(wù)軌跡應(yīng)用到給定的任務(wù)計(jì)劃中來形成它的實(shí)際工作軌跡,接著通過操作者的實(shí)時(shí)反饋不斷地修正自身學(xué)習(xí)到的任務(wù)經(jīng)驗(yàn)。
上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。