本發(fā)明涉及人工智能,具體涉及圖像處理,更具體地涉及一種智能體三維虛擬場景的生成優(yōu)化方法、裝置、設備、介質及產品。
背景技術:
1、人工智能(artificial?intelligence,簡稱ai)是新一輪科技革命和產業(yè)變革的重要驅動力量,是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的關鍵性技術科學。作為智能科學重要的組成部分,人工智能企圖了解智能的實質,并生產出一種新的能以與人類智能相似的方式做出反應的智能機器(即智能體)。
2、在人工智能領域,計算機視覺可以通過視覺傳感設備(如camera等)代替人眼對目標進行識別、跟蹤和檢測等,并進一步通過圖形處理,實現(xiàn)能以與人類眼睛相似的“看”功能。其中,三維場景數(shù)據(jù)集在計算機視覺領域占據(jù)著核心地位,尤其在場景理解和交互任務中發(fā)揮著至關重要的作用。目前,關于更高質量的三維室內場景數(shù)據(jù)集的構建主要通過兩種方式實現(xiàn),其一是直接在仿真環(huán)境中設計場景,其二是在掃描過程中使用高分辨率設備直接獲取場景數(shù)據(jù)。雖然這些數(shù)據(jù)集極大地推動了具身智能的研究,特別是在推理、導航和操作等任務上取得了重要進展。然而,高質量三維場景的構建仍然依賴大量的人工工作,隨著三維場景數(shù)據(jù)集規(guī)?;闹匾匀找嫱癸@,現(xiàn)有高質量三維場景的構建仍然存在高度依賴人工標注導致的擴展性受限、依賴特定資產數(shù)據(jù)集限制了應用范圍且缺乏自動化的高效三維場景創(chuàng)建框架,難以實現(xiàn)大規(guī)模、高效且高質量的三維場景構建。
技術實現(xiàn)思路
1、鑒于上述問題至少之一,本發(fā)明的實施例提供了一種智能體三維虛擬場景的生成優(yōu)化方法、裝置、設備、介質及產品,從而能夠提供一種自動高效的三維場景創(chuàng)建框架,實現(xiàn)自動化地構建高效、真實、高質量、可仿真且多樣化的大規(guī)模三維場景,通過可擴展方法減少對特定資產庫的依賴,從而更高效地實現(xiàn)自動化場景創(chuàng)建。
2、本發(fā)明的實施例的一個方面提供了一種智能體三維虛擬場景的生成優(yōu)化方法,其中,包括:生成識別的目標場景圖像中目標物體對應的候選資產數(shù)據(jù);基于預設多模態(tài)對齊規(guī)則,通過目標物體對應的文本描述信息、掩模分割圖像和候選資產數(shù)據(jù),檢索目標物體對應的最優(yōu)資產數(shù)據(jù);根據(jù)最優(yōu)資產數(shù)據(jù)在預設虛擬場景中執(zhí)行物體姿態(tài)對齊處理,以生成目標虛擬場景;以及對目標虛擬場景執(zhí)行對應目標物體的場景物理優(yōu)化,完成三維虛擬場景的生成優(yōu)化處理。
3、根據(jù)本發(fā)明的一實施例,在生成識別的目標場景圖像中目標物體對應的候選資產數(shù)據(jù)之前,還包括:在預設虛擬場景中提取目標物體的目標視角圖像集;在目標視角圖像集中提取目標場景圖像。
4、根據(jù)本發(fā)明的一實施例,在生成識別的目標場景圖像中目標物體對應的候選資產數(shù)據(jù)中,包括:根據(jù)目標場景圖像獲取目標物體對應的文本描述信息和掩模分割圖像;根據(jù)文本描述信息和掩模分割圖像生成候選資產數(shù)據(jù)。
5、根據(jù)本發(fā)明的一實施例,在根據(jù)目標場景圖像獲取目標物體對應的文本描述信息和掩模分割圖像中,包括:提取并補全目標場景圖像的掩模分割圖像;以及通過預設語言模型生成掩模分割圖像對應的文本描述信息。
6、根據(jù)本發(fā)明的一實施例,在根據(jù)文本描述信息和掩模分割圖像生成候選資產數(shù)據(jù)中,包括:根據(jù)文本描述信息生成第一候選數(shù)據(jù);根據(jù)掩模分割圖像生成第二候選數(shù)據(jù);以及根據(jù)文本描述信息檢索第三候選數(shù)據(jù);其中候選資產數(shù)據(jù)包括第一候選數(shù)據(jù)、第二候選數(shù)據(jù)和第三候選數(shù)據(jù)。
7、根據(jù)本發(fā)明的一實施例,在基于預設多模態(tài)對齊規(guī)則,通過目標物體對應的文本描述信息、掩模分割圖像和候選資產數(shù)據(jù),檢索目標物體對應的最優(yōu)資產數(shù)據(jù)中,包括:提取文本描述信息的文本特征、掩模分割圖像的圖像特征和候選資產數(shù)據(jù)的點云特征;生成文本特征和點云特征之間對應的第一匹配信息和圖像特征和點云特征之間對應的第二匹配信息;根據(jù)點云特征對應的第三匹配信息和預設最佳匹配向量,生成基于第一匹配信息和第二匹配信息的目標損失函數(shù);結合預設輔助損失函數(shù)和目標損失函數(shù)生成資產檢索函數(shù);根據(jù)資產檢索函數(shù)在候選資產數(shù)據(jù)中檢索最優(yōu)資產數(shù)據(jù)。
8、根據(jù)本發(fā)明的一實施例,在根據(jù)最優(yōu)資產數(shù)據(jù)在預設虛擬場景中執(zhí)行物體姿態(tài)對齊處理,以生成目標虛擬場景中,包括:在預設虛擬場景中,平移最優(yōu)資產數(shù)據(jù)對應的虛擬物體的中心位置至與目標物體的真實場景中心位置對應重合;在預設虛擬場景中,對虛擬物體執(zhí)行資產縮放,使得虛擬物體的邊界框的最長邊與目標物體的真實最長邊匹配;以及在預設虛擬場景中,圍繞虛擬物體的預設中心軸線按照預設間隔角度執(zhí)行旋轉,完成物體姿態(tài)對齊處理,生成目標虛擬場景。
9、根據(jù)本發(fā)明的一實施例,在對目標虛擬場景執(zhí)行對應目標物體的場景物理優(yōu)化中,包括:根據(jù)目標物體對應的層次化場景數(shù)據(jù)對目標虛擬場景執(zhí)行針對空間位置關系的物理約束優(yōu)化;通過物理仿真環(huán)境對經物理約束優(yōu)化之后的目標虛擬場景的目標物體添加目標物理屬性,完成場景物理優(yōu)化。
10、本發(fā)明的實施例的另一個方面提供了一種智能體三維虛擬場景的生成優(yōu)化裝置,其中,包括數(shù)據(jù)生成模塊、資產檢索模塊、姿態(tài)對齊模塊和物理優(yōu)化模塊。數(shù)據(jù)生成模塊用于生成識別的目標場景圖像中目標物體對應的候選資產數(shù)據(jù);資產檢索模塊用于基于預設多模態(tài)對齊規(guī)則,通過目標物體對應的文本描述信息、掩模分割圖像和候選資產數(shù)據(jù),檢索目標物體對應的最優(yōu)資產數(shù)據(jù);姿態(tài)對齊模塊用于根據(jù)最優(yōu)資產數(shù)據(jù)在預設虛擬場景中執(zhí)行物體姿態(tài)對齊處理,以生成目標虛擬場景;以及物理優(yōu)化模塊用于對目標虛擬場景執(zhí)行對應目標物體的場景物理優(yōu)化,完成三維虛擬場景的生成優(yōu)化處理。
11、本發(fā)明的實施例的另一個方面提供了一種電子設備,包括一個或多個處理器和存儲器,存儲器用于存儲一個或多個程序,其中,當該一個或多個程序被該一個或多個處理器執(zhí)行時,使得該一個或多個處理器執(zhí)行上述智能體三維虛擬場景的生成優(yōu)化方法。
12、本發(fā)明的實施例的另一個方面提供了一種計算機可讀存儲介質,其上存儲有可執(zhí)行指令,該指令被處理器執(zhí)行時使處理器執(zhí)行上述智能體三維虛擬場景的生成優(yōu)化方法。
13、本發(fā)明的實施例的另一個方面提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述智能體三維虛擬場景的生成優(yōu)化方法。
14、本發(fā)明實施例提供的智能體三維虛擬場景的生成優(yōu)化方法可以至少部分地解決相關技術中智能體三維場景構建過程中所存在的智能化水平較低(如低質量、低效率且失真率高)的問題,并因此可以至少實現(xiàn)如下技術效果之一:
15、基于本發(fā)明實施例的上述智能體三維虛擬場景的生成優(yōu)化方法,通過提出的一種自動化構建真實世界三維掃描場景虛擬副本的算法框架,構建了一個大規(guī)模、可仿真的高質量三維場景數(shù)據(jù)集,該三維場景數(shù)據(jù)集可以通過用來自多種來源的高質量三維資產替換真實世界三維掃描中的物體,為具身智能研究提供了豐富的數(shù)據(jù)支持,促進更逼真的環(huán)境模擬與交互。此外,上述算法框架首先利用強大的多模態(tài)對齊模型,從候選三維資產數(shù)據(jù)中選擇最合適的替換物體作為最優(yōu)資產數(shù)據(jù),并對其位置、尺寸和朝向進行精準對齊。在上述基礎上,通過進一步引入物理仿真進行場景優(yōu)化,確保虛擬場景中的物體符合物理規(guī)律(如穩(wěn)定性、碰撞檢測等),從而提升虛擬副本的真實性和實用性。
16、因此,基于上述本發(fā)明實施例的智能體三維虛擬場景的生成優(yōu)化方法,可以自動化構建高真實性、可仿真的三維場景副本,提升具身智能研究的環(huán)境逼真度與交互可靠性,同時減少人工干預,實現(xiàn)大規(guī)模、高效的高質量三維場景生成與優(yōu)化。
17、應了解的是,上述一般描述及以下具體實施方式僅為示例性及闡釋性的,其并不能限制本發(fā)明所欲主張的范圍。