本發(fā)明涉及ui操作智能體定位導(dǎo)航測試,更具體地說,本發(fā)明涉及一種提升智能體能效操作任務(wù)能效方法及系統(tǒng)。
背景技術(shù):
1、ai智能大模型,如大語言模型(large?language?model,?llm)和多模態(tài)大模型(vision-language?model,?vlm)的進(jìn)展使得基于模型操作ui界面完成任務(wù)變得可能;基于ai智能大模型的ui操作智能體一般是通過模仿人類與各種應(yīng)用的交互來完成ui操作自動化任務(wù);現(xiàn)實中,缺乏足夠的軌跡數(shù)據(jù)是開發(fā)通用ui操作智能體的主要挑戰(zhàn);為解決缺少數(shù)據(jù)這個挑戰(zhàn),現(xiàn)有方法主要依賴于手動標(biāo)注的交互軌跡或從大型開源或閉源模型的合成數(shù)據(jù),但這些方法存在成本高、多樣性不足等問題;例如,在showui中大量采用了人工標(biāo)注和合成數(shù)據(jù),驗證了這類方法的可行性,但是效果有限;在網(wǎng)絡(luò)上存在豐富的ui操作教程,這些教程提供了關(guān)于如何控制計算機(jī)瀏覽器,桌面應(yīng)用,智能手機(jī)應(yīng)用的詳細(xì)步驟說明,是一種未被充分利用的資源;然而,現(xiàn)實中缺少收集處理這種ui操作教程的系統(tǒng)和技術(shù);ui操作智能體主要通過學(xué)習(xí)人類操作ui的形式來完成ui操作任務(wù);開發(fā)ui操作智能體的首要挑戰(zhàn)是缺少足夠的ui操作數(shù)據(jù);現(xiàn)存技術(shù)大都通過人工標(biāo)注的形式解決該問題;盡管人工標(biāo)注的數(shù)據(jù)有很高的質(zhì)量,但是標(biāo)注成本太高以至于數(shù)據(jù)集的數(shù)量達(dá)不到足夠訓(xùn)練的標(biāo)準(zhǔn);另外一種方式是通過開源或者閉源的llm和vlm進(jìn)行數(shù)據(jù)合成;這種方法可以產(chǎn)生足夠大量的數(shù)據(jù);但是,數(shù)據(jù)的多樣性和準(zhǔn)確性卻降低了;在lin等人的工作showui中,將以上提到的多種數(shù)據(jù)收集方式應(yīng)用,并開發(fā)了一個功能相對強(qiáng)大的模型;然而,經(jīng)分析,showui的模型能效受訓(xùn)練數(shù)據(jù)的限制,無法在多平臺,跨應(yīng)用的場景產(chǎn)生合理的泛化性,進(jìn)而限制了該技術(shù)的可用性;強(qiáng)大的ui操作智能體,往往需要在跨平臺跨應(yīng)用的場景進(jìn)行工作,而現(xiàn)存數(shù)據(jù)集因為沒有多樣性并且內(nèi)容不準(zhǔn)確,導(dǎo)致無法訓(xùn)練出這樣的智能體等問題尚待解決;因此,有必要提出一種提升智能體能效操作任務(wù)能效方法及系統(tǒng),以至少部分地解決現(xiàn)有技術(shù)中存在的問題。
技術(shù)實現(xiàn)思路
1、在
技術(shù)實現(xiàn)要素:
部分中引入了一系列簡化形式的概念,這將在具體實施方式部分中進(jìn)一步詳細(xì)說明;本發(fā)明的發(fā)明內(nèi)容部分并不意味著要試圖限定出所要求保護(hù)的技術(shù)方案的關(guān)鍵特征和必要技術(shù)特征,更不意味著試圖確定所要求保護(hù)的技術(shù)方案的保護(hù)范圍。
2、為至少部分地解決上述問題,本發(fā)明提供了一種提升智能體能效操作任務(wù)能效方法,包括:
3、s10,構(gòu)建ui操作智能體框架,自動行成ui操作軌跡訓(xùn)練多模態(tài)模型,自動收集及處理多模態(tài)ui操作教程;
4、s20,結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理,自動將多模態(tài)ui操作教程收集整合及大數(shù)據(jù)分析挖掘處理,并行成ui操作軌跡數(shù)據(jù)集合,構(gòu)建多樣化圖形界面操作數(shù)據(jù)集;
5、s30,根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集,訓(xùn)練多模態(tài)模型,形成ui操作智能體;跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)和應(yīng)用進(jìn)行泛化;
6、s40,構(gòu)建ui操作智能體驗證架構(gòu),在ui操作評估測試集上測試ui操作智能體,同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效及多任務(wù)并行操作能效。
7、優(yōu)選的,s10包括:
8、s101,通過監(jiān)督式精密調(diào)節(jié),訓(xùn)練ai智能大模型對操作軌跡進(jìn)行學(xué)習(xí);基于增量學(xué)習(xí),通過捕捉數(shù)據(jù)流的實時特征,不斷更新模型參數(shù);
9、s102,在模型更新階段,利用實時特征實時更新模型參數(shù),循環(huán)更新優(yōu)化ai智能大模型;為ai智能大模型在解決ui操作類型問題上提供了顯著強(qiáng)化數(shù)據(jù)基礎(chǔ);
10、多樣化圖形界面數(shù)據(jù)集還包括動作:hotkey(鍵盤快捷鍵),drag(按住左鍵拖動),input(輸入字符)等;為ai智能大模型在解決ui操作類型問題上提供了顯著強(qiáng)化數(shù)據(jù)基礎(chǔ)。
11、優(yōu)選的,s20包括:
12、s201,選擇ui操作任務(wù)查詢詞,并通過ui操作任務(wù)查詢詞,結(jié)合搜索接口,在網(wǎng)站上進(jìn)行數(shù)據(jù)擴(kuò)充;獲得包含ui操作教程文章和視頻網(wǎng)站鏈接;
13、s202,通過結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理多模態(tài)教程,構(gòu)建了一個覆蓋多個操作系統(tǒng)和操作系統(tǒng)下多個應(yīng)用程序的多樣化圖形界面操作數(shù)據(jù)集。
14、優(yōu)選的,s30包括:
15、s301,根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集,使用監(jiān)督式精密調(diào)節(jié)大規(guī)模參數(shù)ai智能大模型;大規(guī)模參數(shù)包括:3b和7b大規(guī)模參數(shù);3b和7b分別表示3bilion約30億個參數(shù)和7bilion約70億個參數(shù);
16、s302,持續(xù)訓(xùn)練調(diào)優(yōu)ai智能大模型,形成ui操作智能體,跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)執(zhí)行操作任務(wù)和應(yīng)用進(jìn)行泛化。
17、優(yōu)選的,s40包括:
18、s401,構(gòu)建ui操作智能體驗證架構(gòu),在ui操作評估測試集上測試ui操作智能體,同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效;
19、s402,評估ui操作智能體在多種操作系統(tǒng)的跨系統(tǒng)導(dǎo)航能效;驗證ui操作智能體實際完成一個任務(wù)的單任務(wù)操作能效或多個任務(wù)的多任務(wù)并行操作能效;
20、評估ui操作智能體在多種操作系統(tǒng)的跨系統(tǒng)導(dǎo)航能效;驗證ui操作智能體實際完成一個任務(wù)的單任務(wù)操作能效或多個任務(wù)的多任務(wù)并行操作能效包括:除了模型的定位能效外,也需要評估模型在不同操作系統(tǒng)的導(dǎo)航能效;導(dǎo)航能效一般是指ui操作智能體實際完成一個任務(wù)的能效;在經(jīng)典的手機(jī)操作系統(tǒng)測試集上,相對比于showui等的能效指標(biāo),ui操作智能體在3b和7b模型的情況下能效獲得了極大提升。
21、本發(fā)明提供了一種提升智能體能效操作任務(wù)能效系統(tǒng),包括:
22、ui操作智能體框架分系統(tǒng),構(gòu)建ui操作智能體框架,自動行成ui操作軌跡訓(xùn)練多模態(tài)模型,自動收集及處理多模態(tài)ui操作教程;
23、ui操作數(shù)據(jù)分系統(tǒng),結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理,自動將多模態(tài)ui操作教程收集整合及大數(shù)據(jù)分析挖掘處理,并行成ui操作軌跡數(shù)據(jù)集合,構(gòu)建多樣化圖形界面操作數(shù)據(jù)集;
24、ui操作智能體訓(xùn)練分系統(tǒng),根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集,訓(xùn)練多模態(tài)模型,形成ui操作智能體;跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)和應(yīng)用進(jìn)行泛化;
25、智能體驗證架構(gòu)分系統(tǒng),構(gòu)建ui操作智能體驗證架構(gòu),在ui操作評估測試集上測試ui操作智能體,同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效及多任務(wù)并行操作能效。
26、優(yōu)選的,ui操作智能體框架分系統(tǒng),包括:
27、監(jiān)督式精密調(diào)節(jié)子系統(tǒng),通過監(jiān)督式精密調(diào)節(jié),訓(xùn)練ai智能大模型對操作軌跡進(jìn)行學(xué)習(xí);基于增量學(xué)習(xí),通過捕捉數(shù)據(jù)流的實時特征,不斷更新模型參數(shù);
28、模型更新循環(huán)強(qiáng)化子系統(tǒng),在模型更新階段,利用實時特征實時更新模型參數(shù),循環(huán)更新優(yōu)化ai智能大模型;為ai智能大模型在解決ui操作類型問題上提供了顯著強(qiáng)化數(shù)據(jù)基礎(chǔ);
29、多樣化圖形界面數(shù)據(jù)集還包括動作:hotkey(鍵盤快捷鍵),drag(按住左鍵拖動),input(輸入字符)等;為ai智能大模型在解決ui操作類型問題上提供了顯著強(qiáng)化數(shù)據(jù)基礎(chǔ)。
30、優(yōu)選的,ui操作數(shù)據(jù)分系統(tǒng),包括:
31、ui操作搜索擴(kuò)充子系統(tǒng),選擇ui操作任務(wù)查詢詞,并通過ui操作任務(wù)查詢詞,結(jié)合搜索接口,在網(wǎng)站上進(jìn)行數(shù)據(jù)擴(kuò)充;獲得包含ui操作教程文章和視頻網(wǎng)站鏈接;
32、多操作圖形界面數(shù)據(jù)集子系統(tǒng),通過結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理多模態(tài)教程,構(gòu)建了一個覆蓋多個操作系統(tǒng)和操作系統(tǒng)下多個應(yīng)用程序的多樣化圖形界面操作數(shù)據(jù)集。
33、優(yōu)選的,ui操作智能體訓(xùn)練分系統(tǒng),包括:
34、監(jiān)督式精密調(diào)節(jié)子系統(tǒng),根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集,使用監(jiān)督式精密調(diào)節(jié)大規(guī)模參數(shù)ai智能大模型;大規(guī)模參數(shù)包括:3b和7b大規(guī)模參數(shù);3b和7b分別表示3bilion約30億個參數(shù)和7bilion約70億個參數(shù);大規(guī)模參數(shù)包括:3b和7b大規(guī)模參數(shù);3b和7b分別表示3bilion約30億個參數(shù)和7bilion約70億個參數(shù);
35、ui操作智能體子系統(tǒng),持續(xù)訓(xùn)練調(diào)優(yōu)ai智能大模型,形成ui操作智能體,跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)執(zhí)行操作任務(wù)和應(yīng)用進(jìn)行泛化。
36、優(yōu)選的,智能體驗證架構(gòu)分系統(tǒng),包括:
37、ui操作智能體驗證架構(gòu)子系統(tǒng),構(gòu)建ui操作智能體驗證架構(gòu),在ui操作評估測試集上測試ui操作智能體,同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效;
38、跨系統(tǒng)并行評估子系統(tǒng),并評估ui操作智能體在多種操作系統(tǒng)的跨系統(tǒng)導(dǎo)航能效;驗證ui操作智能體實際完成一個任務(wù)的單任務(wù)操作能效或多個任務(wù)的多任務(wù)并行操作能效。
39、評估ui操作智能體在多種操作系統(tǒng)的跨系統(tǒng)導(dǎo)航能效;驗證ui操作智能體實際完成一個任務(wù)的單任務(wù)操作能效或多個任務(wù)的多任務(wù)并行操作能效包括:除了模型的定位能效外,也需要評估模型在不同操作系統(tǒng)的導(dǎo)航能效;導(dǎo)航能效一般是指ui操作智能體實際完成一個任務(wù)的能效;在經(jīng)典的手機(jī)操作系統(tǒng)測試集上,相對比于showui等的能效指標(biāo),ui操作智能體在3b和7b模型的情況下能效獲得了極大提升。
40、相比現(xiàn)有技術(shù),本發(fā)明至少包括以下有益效果:
41、本發(fā)明一種提升智能體能效操作任務(wù)能效方法和系統(tǒng),構(gòu)建ui操作智能體框架,自動行成ui操作軌跡訓(xùn)練多模態(tài)模型,自動收集及處理多模態(tài)ui操作教程;結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理,自動將多模態(tài)ui操作教程收集整合及大數(shù)據(jù)分析挖掘處理,并行成ui操作軌跡數(shù)據(jù)集合,構(gòu)建多樣化圖形界面操作數(shù)據(jù)集;根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集,訓(xùn)練多模態(tài)模型,形成ui操作智能體;跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)和應(yīng)用進(jìn)行泛化;構(gòu)建ui操作智能體驗證架構(gòu),在ui操作評估測試集上測試ui操作智能體,同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效及多任務(wù)并行操作能效;能夠通過大數(shù)據(jù)抓取和處理多模態(tài)教程,構(gòu)建了一個覆蓋多個(包括五個)操作系統(tǒng)和操作系統(tǒng)下(200)多個應(yīng)用程序的圖形界面(ui)操作數(shù)據(jù)集。將該數(shù)據(jù)集命名為gui-net數(shù)據(jù)集(多樣化圖形界面數(shù)據(jù)集)。該數(shù)據(jù)集總共包含了143k(標(biāo)注)ui操作軌跡數(shù)據(jù),使得多模態(tài)模型在學(xué)習(xí)后能夠順暢操作ui完成復(fù)雜任務(wù);提出了ui操作智能體框架。該框架自動將多模態(tài)ui操作教程收集整合及大數(shù)據(jù)分析挖掘處理,并行成ui操作軌跡數(shù)據(jù)集合來訓(xùn)練多模態(tài)模型;多模態(tài)模型包括文字圖像多模態(tài)ai智能問答大模型、文字語音識別多模態(tài)ai智能大模型或文字語音圖像視頻混合生成多模態(tài)ai智能大模型;最終訓(xùn)練的ui操作智能體能夠跨不同操作系統(tǒng)和應(yīng)用進(jìn)行泛化;開發(fā)了ui操作智能體?;诙鄻踊瘓D形界面數(shù)據(jù)集,在ai智能大模型上進(jìn)行調(diào)節(jié)。并基于調(diào)節(jié)后模型開發(fā)了ui操作智能體驗證架構(gòu)?;谠擈炞C架構(gòu),能夠驗證該模型顯著提高了智能體在常用基準(zhǔn)測試中的定位和導(dǎo)航能效,相較于基線智能體有約10%的提升;一個ui操作軌跡訓(xùn)練數(shù)據(jù)集,以提升ui操作智能體在不同操作系統(tǒng)和應(yīng)用中的適應(yīng)性和能效;一個自動化收集,處理網(wǎng)絡(luò)公開ui教程的系統(tǒng),以持續(xù)構(gòu)建提升ui操作數(shù)據(jù)集;一種調(diào)節(jié)ai智能大模型方法,和智能體構(gòu)建方法,以支持實時的完成ui操作任務(wù)效率顯著提升;本發(fā)明具有重要技術(shù)意義和顯著效果。
42、本發(fā)明所述的一種提升智能體能效操作任務(wù)能效方法和系統(tǒng),本發(fā)明的其它優(yōu)點(diǎn)、目標(biāo)和特征將部分通過下面的說明體現(xiàn),部分還將通過對本發(fā)明的研究和實踐而為本領(lǐng)域的技術(shù)人員所理解。