本公開整體涉及根據(jù)一個(gè)或多個(gè)圖像進(jìn)行的深度估計(jì)。例如,本公開的各方面涉及用于使用機(jī)器學(xué)習(xí)系統(tǒng)基于圖像和稀疏深度輸入來執(zhí)行深度估計(jì)的系統(tǒng)和技術(shù)。
背景技術(shù):
1、機(jī)器學(xué)習(xí)模型(例如,深度學(xué)習(xí)模型,諸如神經(jīng)網(wǎng)絡(luò))可用于執(zhí)行各種任務(wù),包括深度估計(jì)、檢測(cè)和/或識(shí)別(例如,場(chǎng)景或?qū)ο髾z測(cè)和/或識(shí)別)、姿勢(shì)估計(jì)、圖像重建、分類、三維(3d)建模、密集回歸任務(wù)、數(shù)據(jù)壓縮和/或解壓縮、圖像處理等。機(jī)器學(xué)習(xí)模型可以是通用的并且可在各種任務(wù)中實(shí)現(xiàn)高質(zhì)量結(jié)果。
技術(shù)實(shí)現(xiàn)思路
1、以下呈現(xiàn)與本文所公開的一個(gè)或多個(gè)方面相關(guān)的簡(jiǎn)化
技術(shù)實(shí)現(xiàn)要素:
。因此,以下發(fā)明內(nèi)容既不應(yīng)被認(rèn)為是與所有構(gòu)想的方面相關(guān)的詳盡縱覽,也不應(yīng)被認(rèn)為標(biāo)識(shí)與所有構(gòu)想的方面相關(guān)的關(guān)鍵性或決定性元素或描繪與任何特定方面相關(guān)聯(lián)的范圍。因此,以下發(fā)明內(nèi)容的唯一目的是在以下呈現(xiàn)的具體實(shí)施方式之前以簡(jiǎn)化形式呈現(xiàn)與涉及本文所公開的機(jī)制的一個(gè)或多個(gè)方面相關(guān)的某些概念。
2、本文描述了用于使用機(jī)器學(xué)習(xí)系統(tǒng)(例如,神經(jīng)網(wǎng)絡(luò)系統(tǒng)或模型)基于圖像(例如,一個(gè)或多個(gè)密集灰度或彩色圖像)和稀疏深度輸入來執(zhí)行深度估計(jì)的系統(tǒng)和技術(shù)。在一些情況下,可使用自監(jiān)督學(xué)習(xí)來訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)。
3、根據(jù)至少一個(gè)示例,提供了一種用于根據(jù)一個(gè)或多個(gè)圖像生成深度信息的方法。該方法可包括:獲得場(chǎng)景的圖像;獲得與場(chǎng)景中的一個(gè)或多個(gè)對(duì)象相關(guān)聯(lián)的深度信息;使用神經(jīng)網(wǎng)絡(luò)模型的編碼器處理圖像和深度信息以生成圖像和深度信息的特征表示;以及使用神經(jīng)網(wǎng)絡(luò)模型的解碼器處理圖像和深度信息的特征表示以生成對(duì)應(yīng)于圖像的深度輸出。
4、在另一示例中,提供了一種用于根據(jù)一個(gè)或多個(gè)圖像生成深度信息的裝置,該裝置包括至少一個(gè)存儲(chǔ)器和至少一個(gè)處理器,該至少一個(gè)處理器耦合到該至少一個(gè)存儲(chǔ)器。該至少一個(gè)處理器可被配置為:獲得場(chǎng)景的圖像;獲得與場(chǎng)景中的一個(gè)或多個(gè)對(duì)象相關(guān)聯(lián)的深度信息;使用神經(jīng)網(wǎng)絡(luò)模型的編碼器處理圖像和深度信息以生成圖像和深度信息的特征表示;以及使用神經(jīng)網(wǎng)絡(luò)模型的解碼器處理圖像和深度信息的特征表示以生成對(duì)應(yīng)于圖像的深度輸出。
5、在另一示例中,提供了一種非暫態(tài)計(jì)算機(jī)可讀介質(zhì),該非暫態(tài)計(jì)算機(jī)可讀介質(zhì)具有存儲(chǔ)在其上的指令,這些指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)使該一個(gè)或多個(gè)處理器:獲得場(chǎng)景的圖像;獲得與場(chǎng)景中的一個(gè)或多個(gè)對(duì)象相關(guān)聯(lián)的深度信息;使用神經(jīng)網(wǎng)絡(luò)模型的編碼器處理圖像和深度信息以生成圖像和深度信息的特征表示;以及使用神經(jīng)網(wǎng)絡(luò)模型的解碼器處理圖像和深度信息的特征表示以生成對(duì)應(yīng)于圖像的深度輸出。
6、在另一示例中,提供了一種用于根據(jù)一個(gè)或多個(gè)圖像生成深度信息的裝置。該裝置可包括:用于獲得場(chǎng)景的圖像的部件;用于獲得與場(chǎng)景中的一個(gè)或多個(gè)對(duì)象相關(guān)聯(lián)的深度信息的部件;用于使用神經(jīng)網(wǎng)絡(luò)模型的編碼器處理圖像和深度信息以生成圖像和深度信息的特征表示的部件;以及用于使用神經(jīng)網(wǎng)絡(luò)模型的解碼器處理圖像和深度信息的特征表示以生成對(duì)應(yīng)于圖像的深度輸出的部件。
7、在一些方面,本文所述的裝置中的一個(gè)或多個(gè)裝置是以下、是以下的部分和/或包括以下:擴(kuò)展現(xiàn)實(shí)(xr)設(shè)備或系統(tǒng)(例如,虛擬現(xiàn)實(shí)(vr)設(shè)備、增強(qiáng)現(xiàn)實(shí)(ar)設(shè)備或混合現(xiàn)實(shí)(mr)設(shè)備)、移動(dòng)設(shè)備或無線通信設(shè)備(例如,移動(dòng)電話或其他移動(dòng)設(shè)備)、可穿戴設(shè)備(例如,聯(lián)網(wǎng)手表或其他可穿戴設(shè)備)、相機(jī)、個(gè)人計(jì)算機(jī)、膝上型計(jì)算機(jī)、交通工具或交通工具的計(jì)算設(shè)備或組件、服務(wù)器計(jì)算機(jī)或服務(wù)器設(shè)備(例如,基于邊緣或云的服務(wù)器、充當(dāng)服務(wù)器設(shè)備的個(gè)人計(jì)算機(jī)、諸如充當(dāng)服務(wù)器設(shè)備的移動(dòng)電話的移動(dòng)設(shè)備、充當(dāng)服務(wù)器設(shè)備的xr設(shè)備、充當(dāng)服務(wù)器設(shè)備的交通工具、網(wǎng)絡(luò)路由器或充當(dāng)服務(wù)器設(shè)備的其他設(shè)備)、另一設(shè)備或它們的組合。在一些方面,該裝置包括用于捕獲一個(gè)或多個(gè)圖像的一個(gè)相機(jī)或多個(gè)相機(jī)。在一些方面,該裝置還包括用于顯示一個(gè)或多個(gè)圖像、通知和/或其他可顯示數(shù)據(jù)的顯示器。在一些方面,上述裝置可包括一個(gè)或多個(gè)傳感器(例如,一個(gè)或多個(gè)慣性測(cè)量單元(imu),諸如一個(gè)或多個(gè)陀螺儀、一個(gè)或多個(gè)陀螺測(cè)試儀、一個(gè)或多個(gè)加速度計(jì)、它們的任何組合和/或其他傳感器)。
8、該發(fā)明內(nèi)容不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵或必要特征,其也不旨在孤立地用于確定所要求保護(hù)的主題的范圍。本主題應(yīng)當(dāng)參考本專利的整個(gè)說明書的合適部分、任何或所有附圖以及每項(xiàng)權(quán)利要求來理解。
9、前述內(nèi)容以及其他特征和方面將在參照以下說明書、權(quán)利要求書和所附附圖時(shí)變得更明顯。
1.一種用于根據(jù)一個(gè)或多個(gè)圖像生成深度信息的裝置,所述裝置包括:
2.根據(jù)權(quán)利要求1所述的裝置,其中所述圖像包括具有分辨率的多個(gè)像素。
3.根據(jù)權(quán)利要求2所述的裝置,其中所述深度信息包括稀疏深度圖,所述稀疏深度圖包括具有所述分辨率的多個(gè)位置,并且其中:
4.根據(jù)權(quán)利要求2所述的裝置,其中所述深度信息包括稀疏深度圖,所述稀疏深度圖包括具有所述分辨率的多個(gè)位置,并且其中:
5.根據(jù)權(quán)利要求3所述的裝置,其中所述至少一個(gè)處理器被配置為:
6.根據(jù)權(quán)利要求5所述的裝置,其中所述至少一個(gè)處理器被配置為:
7.根據(jù)權(quán)利要求6所述的裝置,其中:
8.根據(jù)權(quán)利要求2所述的裝置,其中所述深度輸出包括具有所述分辨率的深度圖,所述深度圖中的每個(gè)位置包括表示具有所述圖像中的對(duì)應(yīng)位置的相應(yīng)像素的相應(yīng)深度的值。
9.根據(jù)權(quán)利要求1所述的裝置,其中所述至少一個(gè)處理器被配置為:
10.根據(jù)權(quán)利要求1所述的裝置,其中所述至少一個(gè)處理器被配置為:
11.根據(jù)權(quán)利要求10所述的裝置,其中為了基于所述多個(gè)種子點(diǎn)生成所述深度信息,所述至少一個(gè)處理器被配置為:
12.一種根據(jù)一個(gè)或多個(gè)圖像生成深度信息的方法,所述方法包括:
13.根據(jù)權(quán)利要求12所述的方法,其中所述圖像包括具有分辨率的多個(gè)像素。
14.根據(jù)權(quán)利要求13所述的方法,其中所述深度信息包括稀疏深度圖,所述稀疏深度圖包括具有所述分辨率的多個(gè)位置,并且其中:
15.根據(jù)權(quán)利要求13所述的方法,其中所述深度信息包括稀疏深度圖,所述稀疏深度圖包括具有所述分辨率的多個(gè)位置,并且其中:
16.根據(jù)權(quán)利要求14所述的方法,所述方法還包括:
17.根據(jù)權(quán)利要求16所述的方法,所述方法還包括:
18.根據(jù)權(quán)利要求17所述的方法,其中:
19.根據(jù)權(quán)利要求13所述的方法,其中所述深度輸出包括具有所述分辨率的深度圖,所述深度圖中的每個(gè)位置包括表示具有所述圖像中的對(duì)應(yīng)位置的相應(yīng)像素的相應(yīng)深度的值。
20.根據(jù)權(quán)利要求12所述的方法,所述方法還包括:
21.根據(jù)權(quán)利要求12所述的方法,所述方法還包括:
22.根據(jù)權(quán)利要求21所述的方法,其中基于所述多個(gè)種子點(diǎn)生成所述深度信息包括:
23.一種非暫態(tài)計(jì)算機(jī)可讀介質(zhì),所述非暫態(tài)計(jì)算機(jī)可讀介質(zhì)具有存儲(chǔ)在其上的指令,所述指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)使所述一個(gè)或多個(gè)處理器執(zhí)行包括以下的操作:
24.根據(jù)權(quán)利要求23所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其中所述圖像包括具有分辨率的多個(gè)像素。
25.根據(jù)權(quán)利要求24所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其中所述深度信息包括稀疏深度圖,所述稀疏深度圖包括具有所述分辨率的多個(gè)位置,并且其中:
26.根據(jù)權(quán)利要求25所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其中所述稀疏深度圖是逆稀疏深度圖,并且其中所述第一位置子集中的每個(gè)位置包括具有所述圖像中的所述對(duì)應(yīng)位置的所述相應(yīng)像素的所述相應(yīng)深度的逆。
27.根據(jù)權(quán)利要求25所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其中所述指令進(jìn)一步使所述一個(gè)或多個(gè)處理器執(zhí)行包括以下的操作:
28.根據(jù)權(quán)利要求27所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其中所述指令進(jìn)一步使所述一個(gè)或多個(gè)處理器執(zhí)行包括以下的操作:
29.根據(jù)權(quán)利要求24所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其中:
30.根據(jù)權(quán)利要求23所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其中所述指令進(jìn)一步使所述一個(gè)或多個(gè)處理器執(zhí)行包括以下的操作: