最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種提升智能體能效操作任務(wù)能效方法及系統(tǒng)與流程

文檔序號:41952109發(fā)布日期:2025-05-16 14:13閱讀:3來源:國知局
一種提升智能體能效操作任務(wù)能效方法及系統(tǒng)與流程

本發(fā)明涉及ui操作智能體定位導(dǎo)航測試,更具體地說,本發(fā)明涉及一種提升智能體能效操作任務(wù)能效方法及系統(tǒng)。


背景技術(shù):

1、ai智能大模型,如大語言模型(large?language?model,?llm)和多模態(tài)大模型(vision-language?model,?vlm)的進(jìn)展使得基于模型操作ui界面完成任務(wù)變得可能;基于ai智能大模型的ui操作智能體一般是通過模仿人類與各種應(yīng)用的交互來完成ui操作自動化任務(wù);現(xiàn)實中,缺乏足夠的軌跡數(shù)據(jù)是開發(fā)通用ui操作智能體的主要挑戰(zhàn);為解決缺少數(shù)據(jù)這個挑戰(zhàn),現(xiàn)有方法主要依賴于手動標(biāo)注的交互軌跡或從大型開源或閉源模型的合成數(shù)據(jù),但這些方法存在成本高、多樣性不足等問題;例如,在showui中大量采用了人工標(biāo)注和合成數(shù)據(jù),驗證了這類方法的可行性,但是效果有限;在網(wǎng)絡(luò)上存在豐富的ui操作教程,這些教程提供了關(guān)于如何控制計算機(jī)瀏覽器,桌面應(yīng)用,智能手機(jī)應(yīng)用的詳細(xì)步驟說明,是一種未被充分利用的資源;然而,現(xiàn)實中缺少收集處理這種ui操作教程的系統(tǒng)和技術(shù);ui操作智能體主要通過學(xué)習(xí)人類操作ui的形式來完成ui操作任務(wù);開發(fā)ui操作智能體的首要挑戰(zhàn)是缺少足夠的ui操作數(shù)據(jù);現(xiàn)存技術(shù)大都通過人工標(biāo)注的形式解決該問題;盡管人工標(biāo)注的數(shù)據(jù)有很高的質(zhì)量,但是標(biāo)注成本太高以至于數(shù)據(jù)集的數(shù)量達(dá)不到足夠訓(xùn)練的標(biāo)準(zhǔn);另外一種方式是通過開源或者閉源的llm和vlm進(jìn)行數(shù)據(jù)合成;這種方法可以產(chǎn)生足夠大量的數(shù)據(jù);但是,數(shù)據(jù)的多樣性和準(zhǔn)確性卻降低了;在lin等人的工作showui中,將以上提到的多種數(shù)據(jù)收集方式應(yīng)用,并開發(fā)了一個功能相對強(qiáng)大的模型;然而,經(jīng)分析,showui的模型能效受訓(xùn)練數(shù)據(jù)的限制,無法在多平臺,跨應(yīng)用的場景產(chǎn)生合理的泛化性,進(jìn)而限制了該技術(shù)的可用性;強(qiáng)大的ui操作智能體,往往需要在跨平臺跨應(yīng)用的場景進(jìn)行工作,而現(xiàn)存數(shù)據(jù)集因為沒有多樣性并且內(nèi)容不準(zhǔn)確,導(dǎo)致無法訓(xùn)練出這樣的智能體等問題尚待解決;因此,有必要提出一種提升智能體能效操作任務(wù)能效方法及系統(tǒng),以至少部分地解決現(xiàn)有技術(shù)中存在的問題。


技術(shù)實現(xiàn)思路

1、在
技術(shù)實現(xiàn)要素:
部分中引入了一系列簡化形式的概念,這將在具體實施方式部分中進(jìn)一步詳細(xì)說明;本發(fā)明的發(fā)明內(nèi)容部分并不意味著要試圖限定出所要求保護(hù)的技術(shù)方案的關(guān)鍵特征和必要技術(shù)特征,更不意味著試圖確定所要求保護(hù)的技術(shù)方案的保護(hù)范圍。

2、為至少部分地解決上述問題,本發(fā)明提供了一種提升智能體能效操作任務(wù)能效方法,包括:

3、s10,構(gòu)建ui操作智能體框架,自動行成ui操作軌跡訓(xùn)練多模態(tài)模型,自動收集及處理多模態(tài)ui操作教程;

4、s20,結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理,自動將多模態(tài)ui操作教程收集整合及大數(shù)據(jù)分析挖掘處理,并行成ui操作軌跡數(shù)據(jù)集合,構(gòu)建多樣化圖形界面操作數(shù)據(jù)集;

5、s30,根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集,訓(xùn)練多模態(tài)模型,形成ui操作智能體;跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)和應(yīng)用進(jìn)行泛化;

6、s40,構(gòu)建ui操作智能體驗證架構(gòu),在ui操作評估測試集上測試ui操作智能體,同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效及多任務(wù)并行操作能效。

7、優(yōu)選的,s10包括:

8、s101,通過監(jiān)督式精密調(diào)節(jié),訓(xùn)練ai智能大模型對操作軌跡進(jìn)行學(xué)習(xí);基于增量學(xué)習(xí),通過捕捉數(shù)據(jù)流的實時特征,不斷更新模型參數(shù);

9、s102,在模型更新階段,利用實時特征實時更新模型參數(shù),循環(huán)更新優(yōu)化ai智能大模型;為ai智能大模型在解決ui操作類型問題上提供了顯著強(qiáng)化數(shù)據(jù)基礎(chǔ);

10、多樣化圖形界面數(shù)據(jù)集還包括動作:hotkey(鍵盤快捷鍵),drag(按住左鍵拖動),input(輸入字符)等;為ai智能大模型在解決ui操作類型問題上提供了顯著強(qiáng)化數(shù)據(jù)基礎(chǔ)。

11、優(yōu)選的,s20包括:

12、s201,選擇ui操作任務(wù)查詢詞,并通過ui操作任務(wù)查詢詞,結(jié)合搜索接口,在網(wǎng)站上進(jìn)行數(shù)據(jù)擴(kuò)充;獲得包含ui操作教程文章和視頻網(wǎng)站鏈接;

13、s202,通過結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理多模態(tài)教程,構(gòu)建了一個覆蓋多個操作系統(tǒng)和操作系統(tǒng)下多個應(yīng)用程序的多樣化圖形界面操作數(shù)據(jù)集。

14、優(yōu)選的,s30包括:

15、s301,根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集,使用監(jiān)督式精密調(diào)節(jié)大規(guī)模參數(shù)ai智能大模型;大規(guī)模參數(shù)包括:3b和7b大規(guī)模參數(shù);3b和7b分別表示3bilion約30億個參數(shù)和7bilion約70億個參數(shù);

16、s302,持續(xù)訓(xùn)練調(diào)優(yōu)ai智能大模型,形成ui操作智能體,跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)執(zhí)行操作任務(wù)和應(yīng)用進(jìn)行泛化。

17、優(yōu)選的,s40包括:

18、s401,構(gòu)建ui操作智能體驗證架構(gòu),在ui操作評估測試集上測試ui操作智能體,同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效;

19、s402,評估ui操作智能體在多種操作系統(tǒng)的跨系統(tǒng)導(dǎo)航能效;驗證ui操作智能體實際完成一個任務(wù)的單任務(wù)操作能效或多個任務(wù)的多任務(wù)并行操作能效;

20、評估ui操作智能體在多種操作系統(tǒng)的跨系統(tǒng)導(dǎo)航能效;驗證ui操作智能體實際完成一個任務(wù)的單任務(wù)操作能效或多個任務(wù)的多任務(wù)并行操作能效包括:除了模型的定位能效外,也需要評估模型在不同操作系統(tǒng)的導(dǎo)航能效;導(dǎo)航能效一般是指ui操作智能體實際完成一個任務(wù)的能效;在經(jīng)典的手機(jī)操作系統(tǒng)測試集上,相對比于showui等的能效指標(biāo),ui操作智能體在3b和7b模型的情況下能效獲得了極大提升。

21、本發(fā)明提供了一種提升智能體能效操作任務(wù)能效系統(tǒng),包括:

22、ui操作智能體框架分系統(tǒng),構(gòu)建ui操作智能體框架,自動行成ui操作軌跡訓(xùn)練多模態(tài)模型,自動收集及處理多模態(tài)ui操作教程;

23、ui操作數(shù)據(jù)分系統(tǒng),結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理,自動將多模態(tài)ui操作教程收集整合及大數(shù)據(jù)分析挖掘處理,并行成ui操作軌跡數(shù)據(jù)集合,構(gòu)建多樣化圖形界面操作數(shù)據(jù)集;

24、ui操作智能體訓(xùn)練分系統(tǒng),根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集,訓(xùn)練多模態(tài)模型,形成ui操作智能體;跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)和應(yīng)用進(jìn)行泛化;

25、智能體驗證架構(gòu)分系統(tǒng),構(gòu)建ui操作智能體驗證架構(gòu),在ui操作評估測試集上測試ui操作智能體,同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效及多任務(wù)并行操作能效。

26、優(yōu)選的,ui操作智能體框架分系統(tǒng),包括:

27、監(jiān)督式精密調(diào)節(jié)子系統(tǒng),通過監(jiān)督式精密調(diào)節(jié),訓(xùn)練ai智能大模型對操作軌跡進(jìn)行學(xué)習(xí);基于增量學(xué)習(xí),通過捕捉數(shù)據(jù)流的實時特征,不斷更新模型參數(shù);

28、模型更新循環(huán)強(qiáng)化子系統(tǒng),在模型更新階段,利用實時特征實時更新模型參數(shù),循環(huán)更新優(yōu)化ai智能大模型;為ai智能大模型在解決ui操作類型問題上提供了顯著強(qiáng)化數(shù)據(jù)基礎(chǔ);

29、多樣化圖形界面數(shù)據(jù)集還包括動作:hotkey(鍵盤快捷鍵),drag(按住左鍵拖動),input(輸入字符)等;為ai智能大模型在解決ui操作類型問題上提供了顯著強(qiáng)化數(shù)據(jù)基礎(chǔ)。

30、優(yōu)選的,ui操作數(shù)據(jù)分系統(tǒng),包括:

31、ui操作搜索擴(kuò)充子系統(tǒng),選擇ui操作任務(wù)查詢詞,并通過ui操作任務(wù)查詢詞,結(jié)合搜索接口,在網(wǎng)站上進(jìn)行數(shù)據(jù)擴(kuò)充;獲得包含ui操作教程文章和視頻網(wǎng)站鏈接;

32、多操作圖形界面數(shù)據(jù)集子系統(tǒng),通過結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理多模態(tài)教程,構(gòu)建了一個覆蓋多個操作系統(tǒng)和操作系統(tǒng)下多個應(yīng)用程序的多樣化圖形界面操作數(shù)據(jù)集。

33、優(yōu)選的,ui操作智能體訓(xùn)練分系統(tǒng),包括:

34、監(jiān)督式精密調(diào)節(jié)子系統(tǒng),根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集,使用監(jiān)督式精密調(diào)節(jié)大規(guī)模參數(shù)ai智能大模型;大規(guī)模參數(shù)包括:3b和7b大規(guī)模參數(shù);3b和7b分別表示3bilion約30億個參數(shù)和7bilion約70億個參數(shù);大規(guī)模參數(shù)包括:3b和7b大規(guī)模參數(shù);3b和7b分別表示3bilion約30億個參數(shù)和7bilion約70億個參數(shù);

35、ui操作智能體子系統(tǒng),持續(xù)訓(xùn)練調(diào)優(yōu)ai智能大模型,形成ui操作智能體,跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)執(zhí)行操作任務(wù)和應(yīng)用進(jìn)行泛化。

36、優(yōu)選的,智能體驗證架構(gòu)分系統(tǒng),包括:

37、ui操作智能體驗證架構(gòu)子系統(tǒng),構(gòu)建ui操作智能體驗證架構(gòu),在ui操作評估測試集上測試ui操作智能體,同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效;

38、跨系統(tǒng)并行評估子系統(tǒng),并評估ui操作智能體在多種操作系統(tǒng)的跨系統(tǒng)導(dǎo)航能效;驗證ui操作智能體實際完成一個任務(wù)的單任務(wù)操作能效或多個任務(wù)的多任務(wù)并行操作能效。

39、評估ui操作智能體在多種操作系統(tǒng)的跨系統(tǒng)導(dǎo)航能效;驗證ui操作智能體實際完成一個任務(wù)的單任務(wù)操作能效或多個任務(wù)的多任務(wù)并行操作能效包括:除了模型的定位能效外,也需要評估模型在不同操作系統(tǒng)的導(dǎo)航能效;導(dǎo)航能效一般是指ui操作智能體實際完成一個任務(wù)的能效;在經(jīng)典的手機(jī)操作系統(tǒng)測試集上,相對比于showui等的能效指標(biāo),ui操作智能體在3b和7b模型的情況下能效獲得了極大提升。

40、相比現(xiàn)有技術(shù),本發(fā)明至少包括以下有益效果:

41、本發(fā)明一種提升智能體能效操作任務(wù)能效方法和系統(tǒng),構(gòu)建ui操作智能體框架,自動行成ui操作軌跡訓(xùn)練多模態(tài)模型,自動收集及處理多模態(tài)ui操作教程;結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理,自動將多模態(tài)ui操作教程收集整合及大數(shù)據(jù)分析挖掘處理,并行成ui操作軌跡數(shù)據(jù)集合,構(gòu)建多樣化圖形界面操作數(shù)據(jù)集;根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集,訓(xùn)練多模態(tài)模型,形成ui操作智能體;跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)和應(yīng)用進(jìn)行泛化;構(gòu)建ui操作智能體驗證架構(gòu),在ui操作評估測試集上測試ui操作智能體,同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效及多任務(wù)并行操作能效;能夠通過大數(shù)據(jù)抓取和處理多模態(tài)教程,構(gòu)建了一個覆蓋多個(包括五個)操作系統(tǒng)和操作系統(tǒng)下(200)多個應(yīng)用程序的圖形界面(ui)操作數(shù)據(jù)集。將該數(shù)據(jù)集命名為gui-net數(shù)據(jù)集(多樣化圖形界面數(shù)據(jù)集)。該數(shù)據(jù)集總共包含了143k(標(biāo)注)ui操作軌跡數(shù)據(jù),使得多模態(tài)模型在學(xué)習(xí)后能夠順暢操作ui完成復(fù)雜任務(wù);提出了ui操作智能體框架。該框架自動將多模態(tài)ui操作教程收集整合及大數(shù)據(jù)分析挖掘處理,并行成ui操作軌跡數(shù)據(jù)集合來訓(xùn)練多模態(tài)模型;多模態(tài)模型包括文字圖像多模態(tài)ai智能問答大模型、文字語音識別多模態(tài)ai智能大模型或文字語音圖像視頻混合生成多模態(tài)ai智能大模型;最終訓(xùn)練的ui操作智能體能夠跨不同操作系統(tǒng)和應(yīng)用進(jìn)行泛化;開發(fā)了ui操作智能體?;诙鄻踊瘓D形界面數(shù)據(jù)集,在ai智能大模型上進(jìn)行調(diào)節(jié)。并基于調(diào)節(jié)后模型開發(fā)了ui操作智能體驗證架構(gòu)?;谠擈炞C架構(gòu),能夠驗證該模型顯著提高了智能體在常用基準(zhǔn)測試中的定位和導(dǎo)航能效,相較于基線智能體有約10%的提升;一個ui操作軌跡訓(xùn)練數(shù)據(jù)集,以提升ui操作智能體在不同操作系統(tǒng)和應(yīng)用中的適應(yīng)性和能效;一個自動化收集,處理網(wǎng)絡(luò)公開ui教程的系統(tǒng),以持續(xù)構(gòu)建提升ui操作數(shù)據(jù)集;一種調(diào)節(jié)ai智能大模型方法,和智能體構(gòu)建方法,以支持實時的完成ui操作任務(wù)效率顯著提升;本發(fā)明具有重要技術(shù)意義和顯著效果。

42、本發(fā)明所述的一種提升智能體能效操作任務(wù)能效方法和系統(tǒng),本發(fā)明的其它優(yōu)點(diǎn)、目標(biāo)和特征將部分通過下面的說明體現(xiàn),部分還將通過對本發(fā)明的研究和實踐而為本領(lǐng)域的技術(shù)人員所理解。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1