背景技術(shù):
1、隨著深度學(xué)習(xí)方法的發(fā)展,機(jī)器感知成為近年來(lái)廣泛使用機(jī)器學(xué)習(xí)技術(shù)的領(lǐng)域。這樣的一個(gè)機(jī)器感知領(lǐng)域是計(jì)算機(jī)視覺(jué),它包括諸如圖像識(shí)別和標(biāo)記等任務(wù)。在諸如自動(dòng)字幕和光學(xué)字符識(shí)別等應(yīng)用以及諸如自主駕駛等涉及從設(shè)備的物理環(huán)境的圖像中提取語(yǔ)義理解的應(yīng)用中,經(jīng)常使用機(jī)器學(xué)習(xí)模型執(zhí)行計(jì)算機(jī)視覺(jué)任務(wù)。
技術(shù)實(shí)現(xiàn)思路
1、根據(jù)本公開的一個(gè)方面,提供了一種計(jì)算系統(tǒng),該計(jì)算系統(tǒng)包括一個(gè)或多個(gè)處理設(shè)備,該一個(gè)或多個(gè)處理設(shè)備被配置為接收?qǐng)D像。該一個(gè)或多個(gè)處理設(shè)備還被配置為計(jì)算標(biāo)識(shí)圖像中包括的關(guān)注區(qū)域的分割掩模。在特征提取器處,該一個(gè)或多個(gè)處理設(shè)備還被配置為至少部分地基于圖像來(lái)計(jì)算多個(gè)編碼圖像特征。該一個(gè)或多個(gè)處理設(shè)備還被配置為接收文本指令。在視覺(jué)重采樣器處,該一個(gè)或多個(gè)處理設(shè)備還被配置為至少部分地基于分割掩模、多個(gè)編碼圖像特征和文本指令來(lái)計(jì)算掩模查詢,該掩模查詢包括多個(gè)文本符號(hào)。在生成式語(yǔ)言模型處,該一個(gè)或多個(gè)處理設(shè)備還被配置為接收包括掩模查詢和文本指令的自然語(yǔ)言查詢。在生成式語(yǔ)言模型處,該一個(gè)或多個(gè)處理設(shè)備還被配置為至少部分地基于自然語(yǔ)言查詢生成與關(guān)注區(qū)域相關(guān)聯(lián)的語(yǔ)義標(biāo)簽。該一個(gè)或多個(gè)處理設(shè)備還被配置為輸出語(yǔ)義標(biāo)簽。
2、提供本
技術(shù)實(shí)現(xiàn)要素:
是為了以簡(jiǎn)化的形式介紹部分概念,這些概念將在以下具體實(shí)施方式中進(jìn)一步描述。本發(fā)明內(nèi)容并不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于限制所要求保護(hù)的主題的范圍。此外,所要求保護(hù)的主題不限于解決了在本公開的任何部分中指出的任何或所有缺點(diǎn)的實(shí)施方式。
1.一種計(jì)算系統(tǒng),包括:
2.如權(quán)利要求1所述的計(jì)算系統(tǒng),其中所述視覺(jué)重采樣器還被配置為:
3.如權(quán)利要求2所述的計(jì)算系統(tǒng),其中所述自然語(yǔ)言查詢還包括所述模式查詢。
4.如權(quán)利要求3所述的計(jì)算系統(tǒng),其中所述詞匯特定性模式是:
5.如權(quán)利要求1所述的計(jì)算系統(tǒng),其中:
6.如權(quán)利要求1所述的計(jì)算系統(tǒng),其中:
7.如權(quán)利要求1所述的計(jì)算系統(tǒng),其中所述視覺(jué)重采樣器具有變換器架構(gòu),所述變換器架構(gòu)包括多個(gè)變換器層,所述多個(gè)變換器層中的每個(gè)變換器層包括:
8.如權(quán)利要求1所述的計(jì)算系統(tǒng),其中所述視覺(jué)重采樣器使用訓(xùn)練語(yǔ)料庫(kù)來(lái)被訓(xùn)練,所述訓(xùn)練語(yǔ)料庫(kù)包括:
9.如權(quán)利要求8所述的計(jì)算系統(tǒng),其中所述視覺(jué)采樣器經(jīng)由指令微調(diào)而被訓(xùn)練。
10.如權(quán)利要求8所述的計(jì)算系統(tǒng),其中:
11.一種用于圖像處理的方法,所述方法包括:
12.如權(quán)利要求11所述的方法,還包括:
13.如權(quán)利要求12所述的方法,其中:
14.如權(quán)利要求11所述的方法,其中:
15.如權(quán)利要求11所述的方法,還包括:
16.如權(quán)利要求11所述的方法,其中:
17.如權(quán)利要求16所述的方法,還包括使用訓(xùn)練語(yǔ)料庫(kù)對(duì)所述視覺(jué)重采樣器進(jìn)行訓(xùn)練,所述訓(xùn)練語(yǔ)料庫(kù)包括:
18.如權(quán)利要求17所述的方法,其中所述視覺(jué)重采樣器經(jīng)由指令微調(diào)而被訓(xùn)練。
19.如權(quán)利要求17所述的方法,其中:
20.一種計(jì)算系統(tǒng),包括: