本申請(qǐng)實(shí)施例涉及通信,具體涉及模型訓(xùn)練方法、圖像分割方法及其裝置。
背景技術(shù):
1、交互式分割(interactive?segmentation,is)是一種基于用戶(hù)提供的提示信息進(jìn)行圖像分割的方法,用戶(hù)通過(guò)先驗(yàn)知識(shí)引導(dǎo)算法分割出特定區(qū)域。
2、現(xiàn)有技術(shù)中,交互式分割方法通常需將用戶(hù)輸入的提示信息編碼成輸入序列,之后融合到解碼網(wǎng)絡(luò)中。這種方式需要依賴(lài)于視覺(jué)轉(zhuǎn)換器(vision?transformer,vit)等計(jì)算復(fù)雜度較高的解碼網(wǎng)絡(luò),需占用較大的計(jì)算資源。此外,提示信息未被編碼網(wǎng)絡(luò)獲取,影響模型整體的語(yǔ)義理解,導(dǎo)致圖像分割效果較差。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例的目的是提供一種模型訓(xùn)練方法、圖像分割方法及其裝置,能夠節(jié)約計(jì)算資源,且提高圖像分割的準(zhǔn)確性。
2、第一方面,本申請(qǐng)實(shí)施例提供了一種模型訓(xùn)練方法,該方法包括:獲取樣本圖像、提示信息和標(biāo)注信息,所述提示信息用于指示所述樣本圖像中的目標(biāo)區(qū)域,所述標(biāo)注信息用于指示所述樣本圖像的目標(biāo)分割結(jié)果;將所述樣本圖像和所述提示信息輸入至第一模型的編碼網(wǎng)絡(luò),得到所述編碼網(wǎng)絡(luò)輸出的所述樣本圖像與所述提示信息的融合特征;將所述融合特征輸入至所述第一模型的解碼網(wǎng)絡(luò),得到所述解碼網(wǎng)絡(luò)輸出的所述樣本圖像的實(shí)際分割結(jié)果;基于所述實(shí)際分割結(jié)果和所述標(biāo)注信息,對(duì)所述編碼網(wǎng)絡(luò)和所述解碼網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到第二模型。
3、第二方面,本申請(qǐng)實(shí)施例提供了一種圖像分割方法,該方法包括:獲取待分割圖像和提示信息,所述提示信息用于指示所述待分割圖像中的目標(biāo)區(qū)域;將所述待分割圖像和所述提示信息輸入至上述第一方面所述的模型訓(xùn)練方法訓(xùn)練得到的第二模型,得到實(shí)際分割結(jié)果。
4、第三方面,本申請(qǐng)實(shí)施例提供了一種模型訓(xùn)練裝置,該裝置包括:獲取單元,用于獲取樣本圖像、提示信息和標(biāo)注信息,所述提示信息用于指示所述樣本圖像中的目標(biāo)區(qū)域,所述標(biāo)注信息用于指示所述樣本圖像的目標(biāo)分割結(jié)果;編碼單元,用于將所述樣本圖像和所述提示信息輸入至第一模型的編碼網(wǎng)絡(luò),得到所述編碼網(wǎng)絡(luò)輸出的所述樣本圖像與所述提示信息的融合特征;解碼單元,用于將所述融合特征輸入至所述第一模型的解碼網(wǎng)絡(luò),得到所述解碼網(wǎng)絡(luò)輸出的所述樣本圖像的實(shí)際分割結(jié)果;訓(xùn)練單元,用于基于所述實(shí)際分割結(jié)果和所述標(biāo)注信息,對(duì)所述編碼網(wǎng)絡(luò)和所述解碼網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到第二模型。
5、第四方面,本申請(qǐng)實(shí)施例提供了一種模型訓(xùn)練裝置,該裝置包括:獲取單元,用于獲取待分割圖像和提示信息,所述提示信息用于指示所述待分割圖像中的目標(biāo)區(qū)域;圖像分割單元,用于將所述待分割圖像和所述提示信息輸入至采用上述第一方面中的模型訓(xùn)練方法訓(xùn)練得到的第二模型,得到實(shí)際分割結(jié)果。
6、第五方面,本申請(qǐng)實(shí)施例提供了一種電子設(shè)備,該電子設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)可在所述處理器上運(yùn)行的程序或指令,所述程序或指令被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。
7、第六方面,本申請(qǐng)實(shí)施例提供了一種可讀存儲(chǔ)介質(zhì),可讀存儲(chǔ)介質(zhì)上存儲(chǔ)計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所描述的方法的步驟。
8、第七方面,本申請(qǐng)實(shí)施例提供了一種芯片,所述芯片包括處理器和通信接口,所述通信接口和所述處理器耦合,所述處理器用于運(yùn)行程序或指令,實(shí)現(xiàn)如第一方面所描述的方法。
9、第八方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,該程序產(chǎn)品被存儲(chǔ)在存儲(chǔ)介質(zhì)中,該程序產(chǎn)品被至少一個(gè)處理器執(zhí)行以實(shí)現(xiàn)如第一方面所述的方法。
10、在本申請(qǐng)實(shí)施例中,首先獲取樣本圖像、提示信息和標(biāo)注信息,提示信息用于指示樣本圖像中的目標(biāo)區(qū)域,標(biāo)注信息用于指示樣本圖像的目標(biāo)分割結(jié)果;而后將樣本圖像和提示信息輸入至第一模型的編碼網(wǎng)絡(luò),得到編碼網(wǎng)絡(luò)輸出的樣本圖像與提示信息的融合特征;之后將融合特征輸入至第一模型的解碼網(wǎng)絡(luò),得到解碼網(wǎng)絡(luò)輸出的樣本圖像的實(shí)際分割結(jié)果;最后基于實(shí)際分割結(jié)果和標(biāo)注信息,對(duì)編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到第二模型。在模型訓(xùn)練過(guò)程中,由編碼網(wǎng)絡(luò)對(duì)提示信息進(jìn)行編碼、特征提取和特征融合,一方面,能夠降低解碼網(wǎng)絡(luò)的復(fù)雜度,從而節(jié)約計(jì)算資源。另一方面,能夠使提示信息充分參與到模型各部分網(wǎng)絡(luò)結(jié)構(gòu)的處理過(guò)程,提高了模型對(duì)語(yǔ)義的整體理解能力,從而提高了圖像分割的準(zhǔn)確性。
1.一種模型訓(xùn)練方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述編碼網(wǎng)絡(luò)包括第一編碼器、第二編碼器和第三編碼器;所述將所述樣本圖像和所述提示信息輸入至第一模型的編碼網(wǎng)絡(luò),得到所述編碼網(wǎng)絡(luò)輸出的所述樣本圖像與所述提示信息的融合特征,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一編碼器包括n個(gè)第一編碼模塊,所述圖像特征包括所述n個(gè)第一編碼模塊中各第一編碼模塊輸出的圖像子特征,n為正整數(shù);所述第二編碼器包括與所述n個(gè)第一編碼模塊一一對(duì)應(yīng)的n個(gè)第二編碼模塊,所述語(yǔ)義特征包括所述n個(gè)第二編碼模塊中各第二編碼模塊輸出的語(yǔ)義子特征;所述將所述圖像特征和所述語(yǔ)義特征進(jìn)行融合,得到所述樣本圖像與所述提示信息的融合特征,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述編碼網(wǎng)絡(luò)包括第一編碼器、第二編碼器和第三編碼器;所述將所述樣本圖像和所述提示信息輸入至第一模型的編碼網(wǎng)絡(luò),得到所述編碼網(wǎng)絡(luò)輸出的所述樣本圖像與所述提示信息的融合特征,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述第一編碼器包括n個(gè)第一編碼模塊,所述圖像特征包括所述n個(gè)第一編碼模塊中各第一編碼模塊輸出的圖像子特征,n為正整數(shù);所述第二編碼器包括與所述n個(gè)第一編碼模塊一一對(duì)應(yīng)的n個(gè)第二編碼模塊,所述語(yǔ)義特征包括所述n個(gè)第二編碼模塊中各第二編碼模塊輸出的語(yǔ)義子特征;所述第三編碼器包括與所述n個(gè)第一編碼模塊一一對(duì)應(yīng)的n個(gè)第三編碼模塊,所述提示特征包括所述n個(gè)第三編碼模塊中各第三編碼模塊輸出的提示子特征;所述將所述圖像特征和所述語(yǔ)義特征進(jìn)行融合,得到所述樣本圖像與所述提示信息的融合特征,包括:
6.一種圖像分割方法,其特征在于,所述方法包括:
7.一種模型訓(xùn)練裝置,其特征在于,所述裝置包括:
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述編碼網(wǎng)絡(luò)包括第一編碼器、第二編碼器和第三編碼器;所述編碼單元,還用于:
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第一編碼器包括n個(gè)第一編碼模塊,所述圖像特征包括所述n個(gè)第一編碼模塊中各第一編碼模塊輸出的圖像子特征,n為正整數(shù);所述第二編碼器包括與所述n個(gè)第一編碼模塊一一對(duì)應(yīng)的n個(gè)第二編碼模塊,所述語(yǔ)義特征包括所述n個(gè)第二編碼模塊中各第二編碼模塊輸出的語(yǔ)義子特征;所述編碼單元,還用于:
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述編碼網(wǎng)絡(luò)包括第一編碼器、第二編碼器和第三編碼器;所述編碼單元,還用于:
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述第一編碼器包括n個(gè)第一編碼模塊,所述圖像特征包括所述n個(gè)第一編碼模塊中各第一編碼模塊輸出的圖像子特征,n為正整數(shù);所述第二編碼器包括與所述n個(gè)第一編碼模塊一一對(duì)應(yīng)的n個(gè)第二編碼模塊,所述語(yǔ)義特征包括所述n個(gè)第二編碼模塊中各第二編碼模塊輸出的語(yǔ)義子特征;所述第三編碼器包括與所述n個(gè)第一編碼模塊一一對(duì)應(yīng)的n個(gè)第三編碼模塊,所述提示特征包括所述n個(gè)第三編碼模塊中各第三編碼模塊輸出的提示子特征;所述編碼單元,還用于:
12.一種圖像分割裝置,其特征在于,所述裝置包括: