最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

機械學(xué)習(xí)裝置及方法、機器人控制裝置、機器人系統(tǒng)與流程

文檔序號:11119832閱讀:395來源:國知局
機械學(xué)習(xí)裝置及方法、機器人控制裝置、機器人系統(tǒng)與制造工藝

本發(fā)明涉及一種學(xué)習(xí)人的行為模式的機械學(xué)習(xí)裝置、機器人控制裝置、機器人系統(tǒng)及機械學(xué)習(xí)方法。



背景技術(shù):

在現(xiàn)有技術(shù)中,為了確保人的安全,采用了如下的安全對策:在機器人驅(qū)動的期間,人不進入機器人的作業(yè)區(qū)域。例如,在機器人的周邊設(shè)置安全柵,在機器人的驅(qū)動期間,禁止人進入到安全柵的內(nèi)部。近年來,已知人與機器人協(xié)作來進行作業(yè)的機器人系統(tǒng)。在該機器人系統(tǒng)中,在機器人的周邊不設(shè)置安全柵的狀態(tài)下,機器人和人可以同時進行一個作業(yè)。

在日本特開2015-123505號公報中公開了與人進行協(xié)作作業(yè)的工業(yè)機器人。該機器人具備被底部支持的可動部、由剛性比可動部低的材質(zhì)形成且覆蓋可動部的周圍的保護部件、設(shè)于可動部且檢測經(jīng)由保護部件輸入的外力的檢測器。

按照預(yù)先生成的動作程序驅(qū)動一般的工業(yè)機器人?;蛘撸酝ㄟ^由示教編程器等預(yù)先示教的示教點的方式驅(qū)動機器人。即,沿著預(yù)先決定的軌道驅(qū)動機器人。

在人與機器人協(xié)作來進行作業(yè)的機器人系統(tǒng)中,也可以預(yù)先設(shè)定機器人的軌道,沿著所生成的軌道驅(qū)動機器人。然而,在人與機器人協(xié)作來進行作業(yè)的情況下,有時作業(yè)方法并不一般。例如,在制造產(chǎn)品的工廠等,有時將工件從初始位置搬運至目標(biāo)位置。為了搬運工件,有時人與機器人協(xié)作來抬起工件,搬運至目標(biāo)位置。機器人可以抬起搬運物并進行搬運。在該情況下,抬起工件的方向和速度等,存在多個選項。

依存于針對工件的機器人的控制方法,人的負(fù)擔(dān)度變化。例如,即使在進行同一作業(yè)的情況下,人的疲憊程度也變化,負(fù)擔(dān)度還根據(jù)離人的距離或速度而變化。因此,優(yōu)選適當(dāng)?shù)卦O(shè)定機器人的控制方法。然而,存在多個機器人的控制方法。此外,有時人的行為模式因作業(yè)內(nèi)容而不同。因此,存在難以根據(jù)作業(yè)內(nèi)容設(shè)定最佳的機器人的控制方法的問題。



技術(shù)實現(xiàn)要素:

根據(jù)本發(fā)明的第1實施方式,提供一種在人與機器人協(xié)作來進行作業(yè)的機器人的機械學(xué)習(xí)裝置,其中,具備:狀態(tài)觀測部,其在上述人與上述機器人協(xié)作地進行作業(yè)的期間,觀測表示上述機器人的狀態(tài)的狀態(tài)變量;判定數(shù)據(jù)取得部,其取得與上述人的負(fù)擔(dān)度以及作業(yè)效率中的至少一方相關(guān)的判定數(shù)據(jù);以及學(xué)習(xí)部,其根據(jù)上述狀態(tài)變量以及上述判定數(shù)據(jù),學(xué)習(xí)用于設(shè)定上述機器人的行為的訓(xùn)練數(shù)據(jù)集。

優(yōu)選地,上述狀態(tài)變量包括上述機器人的位置、姿勢、速度以及加速度中的至少一個。優(yōu)選地,上述判定數(shù)據(jù)包括上述機器人感知的負(fù)荷的大小或方向、上述機器人的周圍感知的負(fù)荷的大小或方向、上述機器人的周圍的負(fù)擔(dān)度以及上述機器人的移動時間中的至少一個。

上述訓(xùn)練數(shù)據(jù)集包括對上述機器人的每個狀態(tài)以及上述機器人的每個行為設(shè)定的表示上述機器人的行為的價值的行為價值變量,上述學(xué)習(xí)部包括:回報計算部,其根據(jù)上述判定數(shù)據(jù)以及上述狀態(tài)變量設(shè)定回報;以及函數(shù)更新部,其根據(jù)上述回報以及上述狀態(tài)變量,更新上述行為價值變量。優(yōu)選地,上述機器人的加速度的絕對值越小,上述回報計算部設(shè)定越大的回報,上述機器人的移動時間越短,上述回報計算部設(shè)定越大的回報。

上述訓(xùn)練數(shù)據(jù)集包括對上述機器人的每個狀態(tài)以及上述機器人的每個行為設(shè)定的上述機器人的學(xué)習(xí)模型,上述學(xué)習(xí)部包括:誤差計算部,其根據(jù)上述判定數(shù)據(jù)、上述狀態(tài)變量以及所輸入的教師數(shù)據(jù),計算上述學(xué)習(xí)模型的誤差;以及學(xué)習(xí)模型變更部,其根據(jù)上述誤差以及上述狀態(tài)變量,更新上述學(xué)習(xí)模型。優(yōu)選地,該機械學(xué)習(xí)裝置還具備:人判別部,其判別與上述機器人協(xié)作地進行作業(yè)的人,對每個人生成上述訓(xùn)練數(shù)據(jù)集,上述學(xué)習(xí)部學(xué)習(xí)所判別出的人的上述訓(xùn)練數(shù)據(jù)集,或者,上述機械學(xué)習(xí)裝置具備神經(jīng)網(wǎng)絡(luò)。優(yōu)選地,上述機器人為工業(yè)機器人、場地機器人或服務(wù)機器人。

根據(jù)本發(fā)明的第2實施方式,提供一種機器人控制裝置,其包括上述機械學(xué)習(xí)裝置和行為控制部,其控制上述機器人的行為,上述機械學(xué)習(xí)裝置包括:意圖決定部,其根據(jù)上述訓(xùn)練數(shù)據(jù)集設(shè)定上述機器人的行為,上述行為控制部根據(jù)來自上述意圖決定部的指令控制上述機器人的行為。

根據(jù)本發(fā)明的第3實施方式,提供一種機器人系統(tǒng),其包括上述的機器人控制裝置、輔助人的作業(yè)的機器人、安裝在上述機器人上的末端執(zhí)行器。上述機器人包括:力檢測器,其輸出與來自上述人的力對應(yīng)的信號;以及狀態(tài)檢測器,其檢測機器人的位置以及姿勢,上述判定數(shù)據(jù)取得部根據(jù)上述力檢測器的輸出取得上述判定數(shù)據(jù),上述狀態(tài)觀測部根據(jù)上述狀態(tài)檢測器的輸出取得上述狀態(tài)變量。上述狀態(tài)檢測器可以包括人感傳感器、壓力傳感器、電動機的轉(zhuǎn)矩傳感器以及接觸傳感器中的至少一個。該機器人系統(tǒng)具備:多個機器人;多個機器人控制裝置;以及相互連接多個上述機器人控制裝置的通信線,多個上述機器人控制裝置中的各個機器人控制裝置個別地學(xué)習(xí)進行控制的機器人的上述訓(xùn)練數(shù)據(jù)集,經(jīng)由通信線發(fā)送所學(xué)習(xí)的信息來共享信息。

根據(jù)本發(fā)明的第4實施方式,提供一種人與機器人協(xié)作來進行作業(yè)的機器人的機械學(xué)習(xí)方法,其中,包括如下步驟:在上述人與上述機器人協(xié)作來進行作業(yè)的期間,觀測表示上述機器人的狀態(tài)的狀態(tài)變量的步驟;取得與上述人的負(fù)擔(dān)度以及作業(yè)效率中的至少一方相關(guān)的判定數(shù)據(jù)的步驟;以及根據(jù)上述狀態(tài)變量以及上述判定數(shù)據(jù),學(xué)習(xí)用于設(shè)定上述機器人的行為的訓(xùn)練數(shù)據(jù)集的步驟。

附圖說明

通過參照以下的附圖,更明確地理解本發(fā)明。

圖1是概要性地表示實施方式中的機器人和人進行協(xié)作作業(yè)的情況的圖。

圖2是表示實施方式中的一例的機器人系統(tǒng)的框圖。

圖3是示意性地表示神經(jīng)元的模型的圖。

圖4是示意性地表示組合圖3所示的神經(jīng)元而構(gòu)成的三層的神經(jīng)網(wǎng)絡(luò)的圖。

圖5是說明搬運工件的路徑的概要圖。

圖6是說明機器人前端點的移動點的圖。

圖7是說明機器人前端點的移動點的放大圖。

圖8是表示實施方式中的其他例子的機器人系統(tǒng)的框圖。

圖9是表示圖2所示的機器人系統(tǒng)的變形例的框圖。

具體實施方式

以下,參照附圖對實施方式中的機械學(xué)習(xí)裝置、機器人控制裝置、機器人系統(tǒng)以及機械學(xué)習(xí)方法進行說明。然而,應(yīng)當(dāng)理解本發(fā)明并不限定于附圖或以下說明的實施方式。

在機器人系統(tǒng)中,人和機器人協(xié)作地進行預(yù)先決定的作業(yè)。在本實施方式中,示出了人和機器人協(xié)作來搬運工件的例子并進行說明。

圖1表示本實施方式中的機器人系統(tǒng)的概要圖。圖2表示本實施方式中的一例的機器人系統(tǒng)的框圖。參照圖1和圖2,機器人系統(tǒng)3具備輔助工件W的搬運的機器人1和控制機器人1的機器人控制裝置2。本實施方式的機器人1是包含臂部12和多個關(guān)節(jié)部13的多關(guān)節(jié)機器人。機器人系統(tǒng)3具備安裝在機器人1上的作為末端執(zhí)行器的手部6。手部6具有把持或釋放工件W的功能。末端執(zhí)行器并不限定于手部,可以使用與作業(yè)內(nèi)容對應(yīng)的末端執(zhí)行器。

機器人1包括驅(qū)動各個關(guān)節(jié)部13的臂部驅(qū)動裝置44。臂部驅(qū)動裝置44包括配置于關(guān)節(jié)部13的內(nèi)部的臂部驅(qū)動電動機14。臂部驅(qū)動電動機14進行驅(qū)動,從而可以使臂部12通過關(guān)節(jié)部13彎曲成所希望的角度。此外,本實施方式的機器人1形成為整個臂部12可圍繞向鉛垂方向延伸的旋轉(zhuǎn)軸進行旋轉(zhuǎn)。臂部驅(qū)動電動機14包括使臂部12旋轉(zhuǎn)的電動機。

機器人1具備打開或關(guān)閉手部6的手部驅(qū)動裝置45。本實施方式的手部驅(qū)動裝置45包括驅(qū)動手部6的手部驅(qū)動缸18、用于向手部驅(qū)動缸18提供壓縮空氣的空氣泵以及電磁閥。

機器人1具備支持臂部12的底座部11。本實施方式中的機器人1具備用于檢測向底座部11作用的力的力檢測器19。向底座部11作用的力相當(dāng)于作用于機器人1的力。力檢測器19輸出與來自人的力對應(yīng)的信號。本實施方式的力檢測器19被固定在地面20。

作為力檢測器19,可以采用可檢測作用于機器人1的力的大小以及力的方向的任意的檢測器。本實施方式的力檢測器19包括與底座部11連接的金屬基材和安裝于基材表面的應(yīng)變傳感器。并且,力檢測器19可以根據(jù)由應(yīng)變傳感器檢測出的變形量,計算出作用于機器人1的力。

本實施方式的機器人1包括用于檢測機器人的位置以及姿勢的狀態(tài)檢測器。狀態(tài)檢測器檢測出機器人前端點的位置以及機器人1的姿勢。本實施方式的狀態(tài)檢測器包括安裝于各臂部驅(qū)動電動機14的旋轉(zhuǎn)角檢測器15。旋轉(zhuǎn)角檢測器15檢測出臂部驅(qū)動電動機14驅(qū)動時的旋轉(zhuǎn)角??梢愿鶕?jù)各臂部驅(qū)動電動機14的旋轉(zhuǎn)角,檢測出機器人1的位置、姿勢、速度以及加速度。

另外,作為狀態(tài)檢測器,除了旋轉(zhuǎn)角檢測器15外,例如可以使用攝像機、人感傳感器、壓力傳感器、電動機的轉(zhuǎn)矩傳感器以及接觸傳感器等。即,作為狀態(tài)觀測部51觀測的狀態(tài)變量,除了旋轉(zhuǎn)角檢測器15的輸出外,也可以是從攝像機、人感傳感器、壓力傳感器、電動機的轉(zhuǎn)矩傳感器以及接觸傳感器等得到的數(shù)據(jù)(狀態(tài)量)。當(dāng)然,這些攝像機、人感傳感器、壓力傳感器、電動機的轉(zhuǎn)矩傳感器以及接觸傳感器等例如可以直接設(shè)于機器人1(手部6)的預(yù)定位置,或者也可以安裝在機器人1周邊的恰當(dāng)?shù)奈恢谩?/p>

根據(jù)機器人控制裝置2的動作指令驅(qū)動機器人1。機器人控制裝置2包括運算處理裝置,該運算處理裝置具有經(jīng)由總線相互連接的CPU(Central Processing Unit,中央處理單元)、RAM(Random Access Memory,隨機存取存儲器)以及ROM(Read Only Memory,只讀存儲器)等。機器人控制裝置2包括存儲各種信息的存儲部59。機器人控制裝置2包括控制臂部驅(qū)動裝置44以及手部驅(qū)動裝置45的行為控制部43。根據(jù)來自行為控制部43的動作指令,臂部驅(qū)動裝置44以及手部驅(qū)動裝置45進行驅(qū)動。

本實施方式的機器人控制裝置2包括推定從機器人1的外側(cè)向機器人1施加的外力的外力計算部46。通過力檢測器19檢測出的力包括因機器人1的質(zhì)量以及機器人的動作產(chǎn)生的內(nèi)力、從機器人1的外側(cè)向機器人1施加的外力。

在沒有從機器人1的外側(cè)施加力的狀態(tài)下,外力計算部46計算出在機器人1動作時因自重而作用于機器人1的內(nèi)力??梢愿鶕?jù)通過旋轉(zhuǎn)角檢測器15的輸出而檢測出的機器人的位置、姿勢以及機器人的質(zhì)量等,計算出內(nèi)力。機器人1的質(zhì)量等可以預(yù)先存儲在存儲部59中。外力計算部46從由力檢測器19檢測出的力減去內(nèi)力來計算出外力。外力相當(dāng)于人85向工件施加的力。

機器人控制裝置2包括輸入部41以及顯示部42。顯示部42形成為可顯示與機器人1的運轉(zhuǎn)相關(guān)的信息。作為顯示部42,可以示例液晶顯示裝置。輸入部41形成為人可向機器人控制裝置2輸入所希望的指令。作為輸入部41,可以示例鍵盤等。

圖5是說明在本實施方式的機器人系統(tǒng)中,搬運工件的路徑的概要圖。參照圖1和圖5,在本實施方式中,進行將配置于地面20的工件W搬運到作業(yè)臺81的上表面的作業(yè)。例如,工件W為重量較大的工件。若人85想要搬運這樣的工件,則非常疲憊或難以搬運。本實施方式的工件W為汽車輪胎。

在搬運工件W的情況下,如箭頭91~93所示,存在多條搬運工件W的路徑。此外,存在人85需要較大力的區(qū)間,或較小的力就足夠的區(qū)間等。此外,即使工件W的位置相同,也存在機器人1的各種姿勢。

參照圖2,本實施方式的機器人控制裝置2具備機械學(xué)習(xí)裝置5,該機械學(xué)習(xí)裝置5學(xué)習(xí)人的行為模式,學(xué)習(xí)機器人的控制方法以便對人進行適當(dāng)?shù)妮o助。本實施方式的機械學(xué)習(xí)裝置5在機器人1驅(qū)動的期間中的預(yù)先決定的移動點,選擇判斷為最佳的機器人1的行為。即,機械學(xué)習(xí)裝置5發(fā)送在判斷為最佳的驅(qū)動模式下驅(qū)動機器人1的指令。

機械學(xué)習(xí)裝置5具備狀態(tài)觀測部51,該狀態(tài)觀測部51在人85和機器人1協(xié)作進行作業(yè)的期間,取得表示機器人1的狀態(tài)的狀態(tài)變量。本實施方式的狀態(tài)變量為機器人1的位置、姿勢、速度以及加速度。例如,可以將機器人前端點的位置、速度、加速度用作狀態(tài)變量。可以根據(jù)旋轉(zhuǎn)角檢測器15的輸出檢測出機器人1的位置、姿勢、速度以及加速度。向狀態(tài)觀測部51輸入旋轉(zhuǎn)角檢測器15的輸出信號。

作為狀態(tài)變量,并不限于該形態(tài),可以使用表示機器人的狀態(tài)的任意的變量。例如,狀態(tài)觀測部51可以取得機器人1的位置、姿勢、速度、加速度中的至少一個變量。

機械學(xué)習(xí)裝置5具備取得與人85的負(fù)擔(dān)相關(guān)的判定數(shù)據(jù)的判定數(shù)據(jù)取得部52。本實施方式的判定數(shù)據(jù)包括搬運工件W時人85施加的力的大小以及人85施加的力的方向。此外,本實施方式的判定數(shù)據(jù)包括移動工件W時的移動時間。

本實施方式的判定數(shù)據(jù)取得部52根據(jù)力檢測器19的輸出取得判定數(shù)據(jù)。通過外力計算部46計算出的外力的大小相當(dāng)于人85的力的大小。通過外力計算部46計算出的外力的方向相當(dāng)于人85向工件W施加的力的方向。判定數(shù)據(jù)取得部52從外力計算部46接收人的力的大小以及人的力的方向。

機器人控制裝置2具備測定作業(yè)時間的移動時間測定部47。本實施方式的移動時間測定部47計算出在后述的移動點之間移動時的移動時間。本實施方式的移動時間測定部47根據(jù)行為控制部43的指令計算出移動時間。將通過移動時間測定部47測定出的移動時間發(fā)送給判定數(shù)據(jù)取得部52。

作為判定數(shù)據(jù),并不限于上述形態(tài),可以采用與人的負(fù)擔(dān)度以及作業(yè)效率中的至少一方相關(guān)的任意數(shù)據(jù)。例如,作為判定數(shù)據(jù),除了機器人感知的負(fù)荷的大小及其方向、周圍的人或物所感知的負(fù)荷的大小及其方向、周圍的人或物的負(fù)擔(dān)度以及移動時間等外,還可以利用來自攝像機、人感傳感器、壓力傳感器等的信息。另外,在本說明書中,人除了實際與機器人協(xié)作來進行處理(作業(yè))的作業(yè)者外,例如還包括如下的各種人:不直接操作機器人,但在機器人周邊觀察處理的人,或者偶爾通過機器人附近的人。

本實施方式的機械學(xué)習(xí)裝置5具備學(xué)習(xí)部54,該學(xué)習(xí)部54根據(jù)狀態(tài)變量和判定數(shù)據(jù)學(xué)習(xí)用于設(shè)定機器人的行為的訓(xùn)練數(shù)據(jù)集。學(xué)習(xí)部54從狀態(tài)觀測部51取得狀態(tài)變量。此外,學(xué)習(xí)部54從判定數(shù)據(jù)取得部52取得判定數(shù)據(jù)。訓(xùn)練數(shù)據(jù)集是根據(jù)狀態(tài)變量和判定數(shù)據(jù)決定的行為的價值信息的集合。機械學(xué)習(xí)裝置5可以通過比較與訓(xùn)練數(shù)據(jù)集的狀態(tài)以及行為相關(guān)的值來設(shè)定機器人的驅(qū)動方法。另外,本實施方式的應(yīng)用并不限定于工業(yè)機器人,例如,當(dāng)然也可以應(yīng)用于場地機器人、服務(wù)機器人。

在此,對機械學(xué)習(xí)裝置進行說明。機械學(xué)習(xí)裝置具有如下的功能:通過解析從輸入到裝置的數(shù)據(jù)集合中提取其中的有用的規(guī)則、知識表現(xiàn)、判斷基準(zhǔn)等,輸出該判斷結(jié)果,并且進行知識的學(xué)習(xí)(機械學(xué)習(xí))。機械學(xué)習(xí)方法有多種,例如大致分為“有教師學(xué)習(xí)”、“無教師學(xué)習(xí)”以及“強化學(xué)習(xí)”。而且,實現(xiàn)這些方法時,還有學(xué)習(xí)特征量其本身的提取的、稱為“深層學(xué)習(xí)(Deep Learning)”的方法。

另外,圖2所示的機械學(xué)習(xí)裝置5應(yīng)用了“強化學(xué)習(xí)”,此外,參照圖9后述的機械學(xué)習(xí)裝置7應(yīng)用了“有教師學(xué)習(xí)”。這些機械學(xué)習(xí)(機械學(xué)習(xí)裝置5、7)也可以使用通用的計算機或處理器,但若例如應(yīng)用GPGPU(General-Purpose computing on Graphics Processing Units,通用計算圖形處理單元)、大規(guī)模PC群集等,則能夠進行更高速處理。

首先,有教師學(xué)習(xí)是如下方法:通過向機械學(xué)習(xí)裝置大量提供教師數(shù)據(jù)即某輸入和結(jié)果(標(biāo)簽)的數(shù)據(jù)的組,學(xué)習(xí)這些數(shù)據(jù)集中的特征,通過歸納獲得根據(jù)輸入推定結(jié)果的模型(學(xué)習(xí)模型)即其關(guān)系性。例如,能夠通過后述的神經(jīng)網(wǎng)絡(luò)等算法來實現(xiàn)。

此外,無教師學(xué)習(xí)是如下方法:通過向?qū)W習(xí)裝置僅大量提供輸入數(shù)據(jù),學(xué)習(xí)輸入數(shù)據(jù)如何分布,即使不提供對應(yīng)的教師輸出數(shù)據(jù),也能夠通過對輸入數(shù)據(jù)進行壓縮、分類、整形等的裝置進行學(xué)習(xí)。例如,能夠在相似者之間對這些數(shù)據(jù)集中的特征進行聚類。使用該結(jié)果設(shè)置某基準(zhǔn),并進行使之最佳化的輸出分配,由此能夠?qū)崿F(xiàn)輸出的預(yù)測。

另外,作為無教師學(xué)習(xí)與有教師學(xué)習(xí)的中間的問題設(shè)定,有稱為半有教師學(xué)習(xí)的學(xué)習(xí),這例如對應(yīng)于如下的情況:存在僅部分輸入和輸出的數(shù)據(jù)組,除此以外為僅輸入的數(shù)據(jù)。在本實施方式中,在無教師學(xué)習(xí)中利用即使不使機器人實際移動也能夠取得的數(shù)據(jù)(圖像數(shù)據(jù)、模擬數(shù)據(jù)等),由此能夠有效地進行學(xué)習(xí)。

接著,對強化學(xué)習(xí)進行說明。首先,作為強化學(xué)習(xí)的問題設(shè)定,按如下方式進行思考。

·機器人觀測環(huán)境狀態(tài),決定行為。

·環(huán)境按照某種規(guī)則變化,并且,有時自身的行為也會對環(huán)境產(chǎn)生變化。

·每次實施行為時,返回回報信號。

·想要最大化的是將來的(折扣)回報的合計。

·從完全不知道或不完全知道行為引起的結(jié)果的狀態(tài)起開始學(xué)習(xí)。即,機器人實際行為后,可以初次將該結(jié)果作為數(shù)據(jù)而得到。換句話說,需要一邊試錯一邊探索最佳行為。

·也可以將進行了事先學(xué)習(xí)(上述的有教師學(xué)習(xí)、逆強化學(xué)習(xí)的方法)的狀態(tài)設(shè)為初始狀態(tài),從較佳的開始地點開始學(xué)習(xí)以便模擬人的動作。

在此,強化學(xué)習(xí)是指如下的方法:除了判定和分類外,通過學(xué)習(xí)行為,根據(jù)行為對環(huán)境產(chǎn)生的相互作用來學(xué)習(xí)恰當(dāng)?shù)男袨?,即學(xué)習(xí)進行用于使將來得到的回報最大化的學(xué)習(xí)的方法。以下,作為例子,在Q學(xué)習(xí)的情況下繼續(xù)說明,但并不限定于Q學(xué)習(xí)。

Q學(xué)習(xí)是在某環(huán)境狀態(tài)s下學(xué)習(xí)用于選擇行為a的價值Q(s,a)的方法。換句話說,在某狀態(tài)s時,將價值Q(s,a)最高的行為a選擇為最佳行為即可。但是,最初,對于狀態(tài)s和行為a的組合,完全不知道價值Q(s,a)的正確值。因此,智能體(行為主體)在某狀態(tài)s下選擇各種行為a,針對此時的行為a提供回報。由此,智能體選擇更佳的行為,即學(xué)習(xí)正確的價值Q(s,a)。

并且,行為的結(jié)果,想要使將來得到的回報的合計最大化,因此以最終Q(s,a)=E[Σ(γt)rt]為目標(biāo)。在此,E[]表示期待值,t為時刻,γ為后述的稱為折扣率的參數(shù),rt為時刻t的回報,Σ為時刻t的合計。該式中的期待值是按照最佳的行為發(fā)生狀態(tài)變化時所取的值,不知道該值,因此一邊探索一邊學(xué)習(xí)。例如,可以通過下式(1)表示這樣的價值Q(s,a)的更新式。

在上述式(1)中,st表示時刻t的環(huán)境狀態(tài),at表示時刻t的行為。通過行為at,狀態(tài)變化為st+1。rt+1表示根據(jù)該狀態(tài)變化得到的回報。此外,附有max的項為在狀態(tài)st+1下選擇此時獲知的Q值最高的行為a時的Q值乘上γ而得的項。在此,γ為0<γ≤1的參數(shù),稱為折扣率。此外,α為學(xué)習(xí)系數(shù),設(shè)為0<α≤1的范圍。

上述的式(1)表示如下方法:根據(jù)嘗試at的結(jié)果而返回的回報rt+1,更新狀態(tài)st下的行為at的評價值Q(st,at)。即,表示若基于回報rt+1和行為a的下個狀態(tài)下的最佳行為max a的評價值Q(st+1,max at+1)的合計大于狀態(tài)s下的行為a的評價值Q(st,at),則將Q(st,at)設(shè)為較大,相反,若小于狀態(tài)s下的行為a的評價值Q(st,at),則將Q(st,at)設(shè)為較小。換句話說,作為結(jié)果,使某狀態(tài)下的某行為的價值接近基于作為結(jié)果而立即返回的回報和該行為的下個狀態(tài)下的最佳行為的價值。

在此,Q(s,a)的計算機上的表現(xiàn)方法有:對于所有狀態(tài)行為對(s,a),將其值作為表而保持的方法;以及準(zhǔn)備近似Q(s,a)的函數(shù)的方法。在后者的方法中,能夠通過概率梯度下降法等方法來調(diào)整近似函數(shù)的參數(shù),由此實現(xiàn)上述式(1)。另外,作為近似函數(shù),可以使用后述的神經(jīng)網(wǎng)絡(luò)。

此外,作為有教師學(xué)習(xí)、無教師學(xué)習(xí)的學(xué)習(xí)模型,或者強化學(xué)習(xí)中的價值函數(shù)的近似算法,可以使用神經(jīng)網(wǎng)絡(luò)。圖3是示意性地表示神經(jīng)元的模型的圖,圖4是示意性地表示組合圖3所示的神經(jīng)元而構(gòu)成的三層神經(jīng)網(wǎng)絡(luò)的圖。即,神經(jīng)網(wǎng)絡(luò)例如由模仿圖3所示的神經(jīng)元的模型的運算裝置以及存儲器等構(gòu)成。

如圖3所示,神經(jīng)元輸出針對多個輸入x(在圖3中,作為一例為輸入x1~輸入x3)的輸出(結(jié)果)y。對各輸入x(x1,x2,x3)乘以與該輸入x對應(yīng)的權(quán)值w(w1,w2,w3)。由此,神經(jīng)元輸出通過下式(2)表現(xiàn)的結(jié)果y。另外,輸入x、結(jié)果y以及權(quán)值w全部為向量。此外,在下式(2)中,θ為偏置,fk為激活函數(shù)。

參照圖4,說明組合圖3所示的神經(jīng)元而構(gòu)成的三層的神經(jīng)網(wǎng)絡(luò)。如圖4所示,從神經(jīng)網(wǎng)絡(luò)的左側(cè)輸入多個輸入x(在此,作為一例為輸入x1~輸入x3),從右側(cè)輸出結(jié)果y(在此,作為一例為結(jié)果y1~輸入y3)。具體地,輸入x1、x2、x3乘以對應(yīng)的權(quán)值后輸入3個神經(jīng)元N11~N13中的各個神經(jīng)元。將這些對輸入乘以的權(quán)值統(tǒng)一表述為W1。

神經(jīng)元N11~N13分別輸出z11~z13。在圖4中,這些z11~z13被統(tǒng)一表述為特征向量Z1,可以視為提取出輸入向量的特征量而得的向量。該特征向量Z1為權(quán)值W1與權(quán)值W2之間的特征向量。z11~z13乘以對應(yīng)的權(quán)值后分別輸入2個神經(jīng)元N21、N22中的各個神經(jīng)元。將這些對特征向量乘以的權(quán)值統(tǒng)一表述為W2。

神經(jīng)元N21、N22分別輸出z21、z22。在圖4中,將這些z21、z22統(tǒng)一表述為特征向量Z2。該特征向量Z2為權(quán)值W2與權(quán)值W3之間的特征向量。z21、z22乘以對應(yīng)的權(quán)值后分別輸入到3個神經(jīng)元N31~N33的各個神經(jīng)元。將這些對特征向量乘以的權(quán)值統(tǒng)一表述為W3。

最后,神經(jīng)元N31~N33分別輸出結(jié)果y1~結(jié)果y3。神經(jīng)網(wǎng)絡(luò)的動作中有學(xué)習(xí)模式和價值預(yù)測模式。例如,在學(xué)習(xí)模式中,使用學(xué)習(xí)數(shù)據(jù)集學(xué)習(xí)權(quán)值W,在預(yù)測模式中使用其參數(shù)判斷機器人的行為。另外,方便起見,寫成了預(yù)測,但也可以是檢測/分類/推論等多種任務(wù)。

在此,能夠進行在線學(xué)習(xí)和批學(xué)習(xí),其中,在線學(xué)習(xí)為即時學(xué)習(xí)在預(yù)測模式下實際使機器人動作而得到的數(shù)據(jù),并反映到下個行為;批學(xué)習(xí)是使用預(yù)先收集的數(shù)據(jù)群進行統(tǒng)一學(xué)習(xí),以后一直用該參數(shù)進行檢測模式?;蛘?,也可以進行其中間的、每當(dāng)一定程度的數(shù)據(jù)積壓時插入學(xué)習(xí)模式。

此外,可以通過誤差反向傳播法(Back propagation)學(xué)習(xí)權(quán)值W1~W3。另外,誤差信息從右側(cè)進入并流向左側(cè)。誤差反向傳播法是如下的方法:針對各神經(jīng)元,調(diào)整(學(xué)習(xí))各個權(quán)值以使輸入了輸入x時的輸出y與真正的輸出y(教師)的差值變小。

這樣的神經(jīng)網(wǎng)絡(luò)為三層以上,還可以進一步增加層(稱為深層學(xué)習(xí))。此外,也可以自動地僅從教師數(shù)據(jù)獲得階段性地提取輸入的特征并返回結(jié)果的運算裝置。因此,一實施方式的機械學(xué)習(xí)裝置5為了實施上述的Q學(xué)習(xí)(強化學(xué)習(xí)),如圖2所示,具備例如狀態(tài)觀測部51、學(xué)習(xí)部54以及意圖決定部58。但是,如上所述,應(yīng)用于本發(fā)明的機械學(xué)習(xí)方法并不限定于Q學(xué)習(xí)。即,可以應(yīng)用在機械學(xué)習(xí)裝置中能夠使用的方法即“有教師學(xué)習(xí)”、“無教師學(xué)習(xí)”、“半有教師學(xué)習(xí)”以及“強化學(xué)習(xí)(Q學(xué)習(xí)以外的強化學(xué)習(xí))”等各種方法。

圖6是說明本實施方式的移動點的概要圖。在圖6中,為了簡化說明,示出了機器人前端點在二維平面上移動的例子。工件W從初始位置88被搬運至目標(biāo)位置89。在機器人前端點有可能移動的區(qū)域中格子狀地設(shè)定了移動點P。移動點P成為機器人前端點通過的點。機器人前端點從與初始位置88對應(yīng)的移動點P00移動至與目標(biāo)位置89對應(yīng)的移動點Pnm。

圖7表示說明機器人前端點的移動的概要圖。在本實施方式中,在各個移動點P預(yù)先決定了機器人前端點的移動方向。箭頭94~97所示的方向為機器人前端點的移動方向。當(dāng)機器人前端點位于1個移動點P時,通過下個行為,機器人前端點移動到相鄰的其他移動點P。在圖7所示的例子中,當(dāng)機器人前端點配置于移動點P11時,機器人前端點向移動點P12、P21、P10、P01中的某個點移動。

在本實施方式中,進行各種機械學(xué)習(xí)方法中的采用了上述的Q學(xué)習(xí)的強化學(xué)習(xí)。此外,本實施方式的訓(xùn)練數(shù)據(jù)集包括多個行為價值變量Q。另外,如上所述,本實施方式可以應(yīng)用“有教師學(xué)習(xí)”、“無教師學(xué)習(xí)”、“半有教師學(xué)習(xí)”以及“強化學(xué)習(xí)(包括Q學(xué)習(xí))”等各種方法。

在本實施方式中,狀態(tài)st對應(yīng)于機器人1的狀態(tài)變量。即,狀態(tài)st包括機器人1的位置、姿勢、速度以及加速度等。行為at關(guān)于機器人前端點的移動,例如相當(dāng)于箭頭94~97所示的方向的移動。行為at例如包括與箭頭94~97所示的方向的移動相關(guān)的機器人1的位置、姿勢、速度以及加速度等。

本實施方式的學(xué)習(xí)部54在每次進行工件W的搬運時更新行為價值變量Q。學(xué)習(xí)部54包括設(shè)定回報的回報計算部55和更新行為價值變量Q的函數(shù)更新部56。回報計算部55根據(jù)判定數(shù)據(jù)取得部52取得的判定數(shù)據(jù)設(shè)定回報rt。此外,回報計算部55也可以根據(jù)由狀態(tài)觀測部51取得的狀態(tài)變量設(shè)定回報rt。

回報計算部55可以設(shè)定人的負(fù)擔(dān)(負(fù)擔(dān)度)越小,作業(yè)效率越高則越大的回報rt。例如,在工件W大幅度減速或大幅度加速的情況下,對人的負(fù)擔(dān)增大,作業(yè)效率變低。即,可以認(rèn)為機器人1的加速度的絕對值(加速度的大小)越小,則人的負(fù)擔(dān)越小,作業(yè)效率越高。另外,若加速度的絕對值大,則機器人1急劇進行動作,因此可以判別為非優(yōu)選的狀態(tài)。因此,回報計算部55可以設(shè)定機器人1的加速度的絕對值越小則越大的回報。此外,人施加的力的大小越小越好。因此,回報計算部55可以設(shè)定人施加的力的大小(向機器人施加的外力的大小)越小則越大的回報。

并且,將工件W從初始位置88搬運至目標(biāo)位置89的作業(yè)時間越短,則人的負(fù)擔(dān)越小,作業(yè)效率越高。因此,回報計算部55設(shè)定移動點P之間的移動時間越短則越大的回報。此外,在圖5的形態(tài)下,若工件W向下移動,則搬運路徑變長。因此,在機器人前端點的位置向下側(cè)移動,或人施加的力的方向為下側(cè)的情況下,回報計算部55設(shè)定小的回報。在此,作為人的負(fù)擔(dān)度,不僅表示對人的負(fù)擔(dān)的程度,還包括基于各種原因的負(fù)荷,例如對人的意外的接觸或按壓等,并且,除了人,例如還可以包括對周圍的物品的負(fù)擔(dān)度。

此外,回報計算部55可以根據(jù)任意的人的行為設(shè)定回報。例如,在工件W與作業(yè)臺81碰撞的情況下,回報計算部55可以設(shè)定小的正的回報或負(fù)的回報。

在回報的設(shè)定中,例如人可以預(yù)先決定與力的大小等變量對應(yīng)的回報的值,并存儲在存儲部59中。回報計算部55可以讀入存儲于存儲部59的回報來設(shè)定?;蛘?,預(yù)先使存儲部59存儲人用于計算回報的計算式,回報計算部55根據(jù)計算式計算出回報。

接著,函數(shù)更新部56使用上述的式(1)或式(2)更新行為價值變量Q。即,根據(jù)實際的機器人的行為以及人施加的力,更新預(yù)先決定的移動點的機器人的行為的價值。

另外,人也可以預(yù)先設(shè)定各個移動點P的行為價值變量Q的初始值。另外,人也可以預(yù)先設(shè)定隨機的初始值。

機械學(xué)習(xí)裝置5包括根據(jù)訓(xùn)練數(shù)據(jù)集設(shè)定機器人1的行為的意圖決定部58。本實施方式的意圖決定部58根據(jù)通過學(xué)習(xí)部54更新的行為價值變量Q設(shè)定機器人1的行為。例如,意圖決定部58可以選擇行為價值變量Q最大的行為。在本實施方式的強化學(xué)習(xí)中使用ε-greedy方法。在ε-greedy方法中,意圖決定部58以預(yù)先決定的概率ε設(shè)定隨機的行為。此外,意圖決定部58以概率(1-ε)設(shè)定行為價值變量Q最大的行為。即,意圖決定部58通過概率ε的比例選擇與被認(rèn)為最佳的行為不同的行為。通過該方法,有時可以發(fā)現(xiàn)比判定為最佳的機器人的行為更好的機器人的行為。

將通過意圖決定部58設(shè)定的機器人1的行為指令發(fā)送給行為控制部43。行為控制部43根據(jù)來自意圖決定部58的指令控制機器人1和手部6。

這樣,本實施方式的機械學(xué)習(xí)方法包括如下的步驟:在人與機器人協(xié)作來作業(yè)的期間,取得表示機器人的狀態(tài)的狀態(tài)變量;以及取得與人的負(fù)擔(dān)度以及作業(yè)效率中的至少一方相關(guān)的判定數(shù)據(jù)。機械學(xué)習(xí)方法包括根據(jù)狀態(tài)變量和判定數(shù)據(jù),學(xué)習(xí)用于決定機器人的行為的訓(xùn)練數(shù)據(jù)集的步驟。

本實施方式的機械學(xué)習(xí)裝置以及機械學(xué)習(xí)方法重復(fù)進行工件W的搬運,由此可以根據(jù)人的行為模式學(xué)習(xí)機器人的控制方法。并且,能夠設(shè)定人的負(fù)擔(dān)較小、作業(yè)效率高、作業(yè)時間更短的最佳的機器人的控制方法。

另外,作為在機械學(xué)習(xí)裝置以及機械學(xué)習(xí)方法中進行的機械學(xué)習(xí),并不限于上述方式,可以進行任意的機械學(xué)習(xí)。例如,機械學(xué)習(xí)裝置也可以通過深層學(xué)習(xí)使用神經(jīng)網(wǎng)絡(luò)來多層化并設(shè)定最佳的行為。代替使用將多個行為以及多個狀態(tài)設(shè)為函數(shù)的行為價值變量表,也可以使用輸出給出預(yù)定狀態(tài)時的與各個行為對應(yīng)的行為價值變量的神經(jīng)網(wǎng)絡(luò)。

在上述的實施方式中,格子狀地配置了移動點,但并不限于該形態(tài),也可以以任意形態(tài)設(shè)定移動點。此外,通過縮小移動點之間的間隔,能夠使機器人的動作變得流暢。在上述的實施方式中,在平面上設(shè)定了移動點,因此機器人的移動成為平面狀,但通過將移動點配置于三維空間,能夠使移動點三維地移動。

參照圖5,本實施方式的機械學(xué)習(xí)裝置5包括判別人的人判別部57。預(yù)先生成每個人的訓(xùn)練數(shù)據(jù)集。存儲部59存儲每個人的訓(xùn)練數(shù)據(jù)集。在本實施方式中,人85向輸入部41輸入每個人的編號。人判別部57根據(jù)所輸入的編號從存儲部59讀入與人對應(yīng)的訓(xùn)練數(shù)據(jù)集。然后,學(xué)習(xí)部54學(xué)習(xí)與人對應(yīng)的訓(xùn)練數(shù)據(jù)集。通過進行該控制,可以對每個人設(shè)定基于人的行為模式的機器人的控制方法。即,可以對每個人實施最佳的機器人的控制。例如,人有高個的人、矮個的人、腰腿強壯的人、臂力強的人等各種人。能夠與各個人對應(yīng)地實現(xiàn)最佳的機器人的控制。

另外,作為判別人的控制,并不限于上述方式,可以采用任意的方法。例如,可以在機械學(xué)習(xí)裝置中配置編號讀取裝置。人持有記載了個別編號的牌。然后,編號讀取裝置讀取編號并將結(jié)果發(fā)送給人判別部。人判別部可以根據(jù)所讀取的編號來判別人。

圖8是表示本實施方式的其他機器人系統(tǒng)的框圖。在其他機器人系統(tǒng)(制造系統(tǒng))4中進行分散學(xué)習(xí)。如圖8所示,其他機器人系統(tǒng)4具備多個機器人和多個機器人控制裝置。機器人系統(tǒng)4具備第1機器人1a和第2機器人1b。機器人系統(tǒng)4具備安裝于第1機器人1a的第1手部6a和安裝于第2機器人1b的第2手部6b。這樣,其他機器人系統(tǒng)4具備2個機器人1a、1b和2個手部6a、6b。

機器人系統(tǒng)4具備控制第1機器人1a的第1機器人控制裝置2a和控制第2機器人1b的第2機器人控制裝置2b。第1機器人控制裝置2a的結(jié)構(gòu)以及第2機器人控制裝置2b的結(jié)構(gòu)與上述機器人控制裝置2的結(jié)構(gòu)相同。多個機器人控制裝置2a、2b通過包含通信線21的通信裝置相互連接。通信裝置例如可以通過以太網(wǎng)(注冊商標(biāo))實施通信。機器人控制裝置2a、2b形成為可以通過通信交換相互的信息。

在機器人系統(tǒng)4中,多個機器人1a、1b和人協(xié)作來進行作業(yè)。在圖8所示的例子中,通過2臺機器人輔助人的作業(yè)。第1機器人控制裝置2a個別地學(xué)習(xí)第1機器人1a的控制。此外,第2機器人控制裝置2b個別地學(xué)習(xí)第2機器人1b的控制。并且,可以經(jīng)由通信線21相互發(fā)送通過各個機器人控制裝置學(xué)習(xí)的信息。

這樣,第1機器人控制裝置2a和第2機器人控制裝置2b可以共享通過各個機器人控制裝置2a、2b學(xué)習(xí)的信息。通過實施該控制,能夠共享用于學(xué)習(xí)的行為模式等,增加學(xué)習(xí)次數(shù)。該結(jié)果,能夠提高學(xué)習(xí)精度。

在上述實施方式中,示例了搬運工件W的協(xié)作作業(yè),但作為協(xié)作作業(yè),并不限于該方式,可以采用任意的協(xié)作作業(yè)。例如,可以示例機器人和人協(xié)作地將1個部件安裝到預(yù)定裝置的作業(yè)等。

圖9是圖2所示的機器人系統(tǒng)的變形例的框圖,表示應(yīng)用了有教師學(xué)習(xí)的機器人系統(tǒng)3’。如圖9所示,機器人系統(tǒng)3’例如包括機器人1、手部6以及機器人控制裝置2’。機器人控制裝置2’包括機械學(xué)習(xí)裝置7、輸入部41、顯示部42、行為控制部43、外力計算部46以及移動時間測定部47。機械學(xué)習(xí)裝置7包括狀態(tài)觀測部71、判定數(shù)據(jù)取得部72、學(xué)習(xí)部74、人判別部77、意圖決定部78以及存儲部79。學(xué)習(xí)部74包括回報計算部55和函數(shù)更新部56。

即,從圖9與上述圖2的比較可知,在圖9所示的變形例的機器人系統(tǒng)3’的學(xué)習(xí)部74中,將圖2的學(xué)習(xí)部54中的回報計算部55和函數(shù)更新部56置換為誤差計算部75和學(xué)習(xí)模型變更部76。另外,實質(zhì)上,其他結(jié)構(gòu)與圖2所示的機械學(xué)習(xí)裝置5中的結(jié)構(gòu)相同,因此省略其說明。從外部向誤差計算部75輸入教師數(shù)據(jù),例如進行與通過到此為止的學(xué)習(xí)得到的數(shù)據(jù)的誤差變小的計算,通過學(xué)習(xí)模型變更部76更新學(xué)習(xí)模型(誤差模型)。即,誤差計算部75接受狀態(tài)觀測部71的輸出以及教師數(shù)據(jù)等,例如計算帶結(jié)果(標(biāo)簽)的數(shù)據(jù)與安裝于學(xué)習(xí)部74的學(xué)習(xí)模型的輸出的誤差。在此,在向機器人控制裝置2’輸入的程序(機器人系統(tǒng)3’處理的動作)相同的情況下,教師數(shù)據(jù)可以保持使機器人系統(tǒng)3’進行處理的預(yù)定日的前日為止得到的帶結(jié)果(標(biāo)簽)的數(shù)據(jù),在該預(yù)定日向誤差計算部75提供帶結(jié)果(標(biāo)簽)的數(shù)據(jù)。

或者,通過存儲卡或通信線路向該機器人系統(tǒng)3’的誤差計算部75提供通過在機器人系統(tǒng)3’的外部進行的模擬等得到的數(shù)據(jù)或其他機器人系統(tǒng)的帶結(jié)果(標(biāo)簽)的數(shù)據(jù)作為教師數(shù)據(jù)。并且,例如通過內(nèi)置于學(xué)習(xí)部74的閃速存儲器(Flash Memory)等非易失性存儲器保持帶結(jié)果(標(biāo)簽)的數(shù)據(jù),在學(xué)習(xí)部74中可以直接使用該非易失性存儲器所保持的帶結(jié)果(標(biāo)簽)的數(shù)據(jù)。

以上,在考慮具備多個機器人系統(tǒng)3’(3)的制造系統(tǒng)(制造設(shè)備)的情況下,例如對每個機器人系統(tǒng)3’(3)設(shè)置機械學(xué)習(xí)裝置7(5),對每個機器人系統(tǒng)3’(3)設(shè)置的多個機械學(xué)習(xí)裝置7(5)例如可以經(jīng)由通信介質(zhì)相互共享或交換數(shù)據(jù)。此外,機械學(xué)習(xí)裝置7(5)例如也可以存在于云服務(wù)器上。

通過本發(fā)明,提供一種能夠?qū)W習(xí)人的行為模式,設(shè)定對人進行適當(dāng)?shù)妮o助的機器人的控制方法的機械學(xué)習(xí)裝置、機器人控制裝置、機器人系統(tǒng)以及機械學(xué)習(xí)方法。

以上,對實施方式進行了說明,但在此記載的所有例子或條件是以幫助理解應(yīng)用于發(fā)明和技術(shù)的發(fā)明概念為目的而進行的記載,所記載的例子或條件并不特別限制發(fā)明的范圍。此外,說明書的這樣的記載并不表示發(fā)明的優(yōu)點和缺點。雖然詳細(xì)地記載了發(fā)明的實施方式,但應(yīng)理解為在不脫離發(fā)明的主旨以及范圍的情況下能夠進行各種變更、置換、變形。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1