一種提升智能體能效操作任務(wù)能效方法及系統(tǒng)與流程

文檔序號：41952109發(fā)布日期：2025-05-16 14:13閱讀：3來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及ui操作智能體定位導(dǎo)航測試，更具體地說，本發(fā)明涉及一種提升智能體能效操作任務(wù)能效方法及系統(tǒng)。

背景技術(shù)：

1、ai智能大模型，如大語言模型（large?language?model,?llm）和多模態(tài)大模型（vision-language?model，?vlm)的進(jìn)展使得基于模型操作ui界面完成任務(wù)變得可能；基于ai智能大模型的ui操作智能體一般是通過模仿人類與各種應(yīng)用的交互來完成ui操作自動化任務(wù)；現(xiàn)實中，缺乏足夠的軌跡數(shù)據(jù)是開發(fā)通用ui操作智能體的主要挑戰(zhàn)；為解決缺少數(shù)據(jù)這個挑戰(zhàn)，現(xiàn)有方法主要依賴于手動標(biāo)注的交互軌跡或從大型開源或閉源模型的合成數(shù)據(jù)，但這些方法存在成本高、多樣性不足等問題；例如，在showui中大量采用了人工標(biāo)注和合成數(shù)據(jù)，驗證了這類方法的可行性，但是效果有限；在網(wǎng)絡(luò)上存在豐富的ui操作教程，這些教程提供了關(guān)于如何控制計算機(jī)瀏覽器，桌面應(yīng)用，智能手機(jī)應(yīng)用的詳細(xì)步驟說明，是一種未被充分利用的資源；然而，現(xiàn)實中缺少收集處理這種ui操作教程的系統(tǒng)和技術(shù)；ui操作智能體主要通過學(xué)習(xí)人類操作ui的形式來完成ui操作任務(wù)；開發(fā)ui操作智能體的首要挑戰(zhàn)是缺少足夠的ui操作數(shù)據(jù)；現(xiàn)存技術(shù)大都通過人工標(biāo)注的形式解決該問題；盡管人工標(biāo)注的數(shù)據(jù)有很高的質(zhì)量，但是標(biāo)注成本太高以至于數(shù)據(jù)集的數(shù)量達(dá)不到足夠訓(xùn)練的標(biāo)準(zhǔn)；另外一種方式是通過開源或者閉源的llm和vlm進(jìn)行數(shù)據(jù)合成；這種方法可以產(chǎn)生足夠大量的數(shù)據(jù)；但是，數(shù)據(jù)的多樣性和準(zhǔn)確性卻降低了；在lin等人的工作showui中，將以上提到的多種數(shù)據(jù)收集方式應(yīng)用，并開發(fā)了一個功能相對強(qiáng)大的模型；然而，經(jīng)分析，showui的模型能效受訓(xùn)練數(shù)據(jù)的限制，無法在多平臺，跨應(yīng)用的場景產(chǎn)生合理的泛化性，進(jìn)而限制了該技術(shù)的可用性；強(qiáng)大的ui操作智能體，往往需要在跨平臺跨應(yīng)用的場景進(jìn)行工作，而現(xiàn)存數(shù)據(jù)集因為沒有多樣性并且內(nèi)容不準(zhǔn)確，導(dǎo)致無法訓(xùn)練出這樣的智能體等問題尚待解決；因此，有必要提出一種提升智能體能效操作任務(wù)能效方法及系統(tǒng)，以至少部分地解決現(xiàn)有技術(shù)中存在的問題。

技術(shù)實現(xiàn)思路

1、在
技術(shù)實現(xiàn)要素：
部分中引入了一系列簡化形式的概念，這將在具體實施方式部分中進(jìn)一步詳細(xì)說明；本發(fā)明的發(fā)明內(nèi)容部分并不意味著要試圖限定出所要求保護(hù)的技術(shù)方案的關(guān)鍵特征和必要技術(shù)特征，更不意味著試圖確定所要求保護(hù)的技術(shù)方案的保護(hù)范圍。

2、為至少部分地解決上述問題，本發(fā)明提供了一種提升智能體能效操作任務(wù)能效方法，包括：

3、s10，構(gòu)建ui操作智能體框架，自動行成ui操作軌跡訓(xùn)練多模態(tài)模型，自動收集及處理多模態(tài)ui操作教程；

4、s20，結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理，自動將多模態(tài)ui操作教程收集整合及大數(shù)據(jù)分析挖掘處理，并行成ui操作軌跡數(shù)據(jù)集合，構(gòu)建多樣化圖形界面操作數(shù)據(jù)集；

5、s30，根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集，訓(xùn)練多模態(tài)模型，形成ui操作智能體；跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)和應(yīng)用進(jìn)行泛化；

6、s40，構(gòu)建ui操作智能體驗證架構(gòu)，在ui操作評估測試集上測試ui操作智能體，同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效及多任務(wù)并行操作能效。

7、優(yōu)選的，s10包括：

8、s101，通過監(jiān)督式精密調(diào)節(jié)，訓(xùn)練ai智能大模型對操作軌跡進(jìn)行學(xué)習(xí)；基于增量學(xué)習(xí)，通過捕捉數(shù)據(jù)流的實時特征，不斷更新模型參數(shù)；

9、s102，在模型更新階段，利用實時特征實時更新模型參數(shù)，循環(huán)更新優(yōu)化ai智能大模型；為ai智能大模型在解決ui操作類型問題上提供了顯著強(qiáng)化數(shù)據(jù)基礎(chǔ)；

10、多樣化圖形界面數(shù)據(jù)集還包括動作：hotkey（鍵盤快捷鍵），drag（按住左鍵拖動），input（輸入字符）等；為ai智能大模型在解決ui操作類型問題上提供了顯著強(qiáng)化數(shù)據(jù)基礎(chǔ)。

11、優(yōu)選的，s20包括：

12、s201，選擇ui操作任務(wù)查詢詞，并通過ui操作任務(wù)查詢詞，結(jié)合搜索接口，在網(wǎng)站上進(jìn)行數(shù)據(jù)擴(kuò)充；獲得包含ui操作教程文章和視頻網(wǎng)站鏈接；

13、s202，通過結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理多模態(tài)教程，構(gòu)建了一個覆蓋多個操作系統(tǒng)和操作系統(tǒng)下多個應(yīng)用程序的多樣化圖形界面操作數(shù)據(jù)集。

14、優(yōu)選的，s30包括：

15、s301，根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集，使用監(jiān)督式精密調(diào)節(jié)大規(guī)模參數(shù)ai智能大模型；大規(guī)模參數(shù)包括：3b和7b大規(guī)模參數(shù)；3b和7b分別表示3bilion約30億個參數(shù)和7bilion約70億個參數(shù)；

16、s302，持續(xù)訓(xùn)練調(diào)優(yōu)ai智能大模型，形成ui操作智能體，跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)執(zhí)行操作任務(wù)和應(yīng)用進(jìn)行泛化。

17、優(yōu)選的，s40包括：

18、s401，構(gòu)建ui操作智能體驗證架構(gòu)，在ui操作評估測試集上測試ui操作智能體，同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效；

19、s402，評估ui操作智能體在多種操作系統(tǒng)的跨系統(tǒng)導(dǎo)航能效；驗證ui操作智能體實際完成一個任務(wù)的單任務(wù)操作能效或多個任務(wù)的多任務(wù)并行操作能效；

20、評估ui操作智能體在多種操作系統(tǒng)的跨系統(tǒng)導(dǎo)航能效；驗證ui操作智能體實際完成一個任務(wù)的單任務(wù)操作能效或多個任務(wù)的多任務(wù)并行操作能效包括：除了模型的定位能效外，也需要評估模型在不同操作系統(tǒng)的導(dǎo)航能效；導(dǎo)航能效一般是指ui操作智能體實際完成一個任務(wù)的能效；在經(jīng)典的手機(jī)操作系統(tǒng)測試集上，相對比于showui等的能效指標(biāo)，ui操作智能體在3b和7b模型的情況下能效獲得了極大提升。

21、本發(fā)明提供了一種提升智能體能效操作任務(wù)能效系統(tǒng)，包括：

22、ui操作智能體框架分系統(tǒng)，構(gòu)建ui操作智能體框架，自動行成ui操作軌跡訓(xùn)練多模態(tài)模型，自動收集及處理多模態(tài)ui操作教程；

23、ui操作數(shù)據(jù)分系統(tǒng)，結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理，自動將多模態(tài)ui操作教程收集整合及大數(shù)據(jù)分析挖掘處理，并行成ui操作軌跡數(shù)據(jù)集合，構(gòu)建多樣化圖形界面操作數(shù)據(jù)集；

24、ui操作智能體訓(xùn)練分系統(tǒng)，根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集，訓(xùn)練多模態(tài)模型，形成ui操作智能體；跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)和應(yīng)用進(jìn)行泛化；

25、智能體驗證架構(gòu)分系統(tǒng)，構(gòu)建ui操作智能體驗證架構(gòu)，在ui操作評估測試集上測試ui操作智能體，同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效及多任務(wù)并行操作能效。

26、優(yōu)選的，ui操作智能體框架分系統(tǒng)，包括：

27、監(jiān)督式精密調(diào)節(jié)子系統(tǒng)，通過監(jiān)督式精密調(diào)節(jié)，訓(xùn)練ai智能大模型對操作軌跡進(jìn)行學(xué)習(xí)；基于增量學(xué)習(xí)，通過捕捉數(shù)據(jù)流的實時特征，不斷更新模型參數(shù)；

28、模型更新循環(huán)強(qiáng)化子系統(tǒng)，在模型更新階段，利用實時特征實時更新模型參數(shù)，循環(huán)更新優(yōu)化ai智能大模型；為ai智能大模型在解決ui操作類型問題上提供了顯著強(qiáng)化數(shù)據(jù)基礎(chǔ)；

29、多樣化圖形界面數(shù)據(jù)集還包括動作：hotkey（鍵盤快捷鍵），drag（按住左鍵拖動），input（輸入字符）等；為ai智能大模型在解決ui操作類型問題上提供了顯著強(qiáng)化數(shù)據(jù)基礎(chǔ)。

30、優(yōu)選的，ui操作數(shù)據(jù)分系統(tǒng)，包括：

31、ui操作搜索擴(kuò)充子系統(tǒng)，選擇ui操作任務(wù)查詢詞，并通過ui操作任務(wù)查詢詞，結(jié)合搜索接口，在網(wǎng)站上進(jìn)行數(shù)據(jù)擴(kuò)充；獲得包含ui操作教程文章和視頻網(wǎng)站鏈接；

32、多操作圖形界面數(shù)據(jù)集子系統(tǒng)，通過結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理多模態(tài)教程，構(gòu)建了一個覆蓋多個操作系統(tǒng)和操作系統(tǒng)下多個應(yīng)用程序的多樣化圖形界面操作數(shù)據(jù)集。

33、優(yōu)選的，ui操作智能體訓(xùn)練分系統(tǒng)，包括：

34、監(jiān)督式精密調(diào)節(jié)子系統(tǒng)，根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集，使用監(jiān)督式精密調(diào)節(jié)大規(guī)模參數(shù)ai智能大模型；大規(guī)模參數(shù)包括：3b和7b大規(guī)模參數(shù)；3b和7b分別表示3bilion約30億個參數(shù)和7bilion約70億個參數(shù)；大規(guī)模參數(shù)包括：3b和7b大規(guī)模參數(shù)；3b和7b分別表示3bilion約30億個參數(shù)和7bilion約70億個參數(shù)；

35、ui操作智能體子系統(tǒng)，持續(xù)訓(xùn)練調(diào)優(yōu)ai智能大模型，形成ui操作智能體，跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)執(zhí)行操作任務(wù)和應(yīng)用進(jìn)行泛化。

36、優(yōu)選的，智能體驗證架構(gòu)分系統(tǒng)，包括：

37、ui操作智能體驗證架構(gòu)子系統(tǒng)，構(gòu)建ui操作智能體驗證架構(gòu)，在ui操作評估測試集上測試ui操作智能體，同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效；

38、跨系統(tǒng)并行評估子系統(tǒng)，并評估ui操作智能體在多種操作系統(tǒng)的跨系統(tǒng)導(dǎo)航能效；驗證ui操作智能體實際完成一個任務(wù)的單任務(wù)操作能效或多個任務(wù)的多任務(wù)并行操作能效。

39、評估ui操作智能體在多種操作系統(tǒng)的跨系統(tǒng)導(dǎo)航能效；驗證ui操作智能體實際完成一個任務(wù)的單任務(wù)操作能效或多個任務(wù)的多任務(wù)并行操作能效包括：除了模型的定位能效外，也需要評估模型在不同操作系統(tǒng)的導(dǎo)航能效；導(dǎo)航能效一般是指ui操作智能體實際完成一個任務(wù)的能效；在經(jīng)典的手機(jī)操作系統(tǒng)測試集上，相對比于showui等的能效指標(biāo)，ui操作智能體在3b和7b模型的情況下能效獲得了極大提升。

40、相比現(xiàn)有技術(shù)，本發(fā)明至少包括以下有益效果：

41、本發(fā)明一種提升智能體能效操作任務(wù)能效方法和系統(tǒng)，構(gòu)建ui操作智能體框架，自動行成ui操作軌跡訓(xùn)練多模態(tài)模型，自動收集及處理多模態(tài)ui操作教程；結(jié)合ui操作智能體框架及大數(shù)據(jù)抓取和處理，自動將多模態(tài)ui操作教程收集整合及大數(shù)據(jù)分析挖掘處理，并行成ui操作軌跡數(shù)據(jù)集合，構(gòu)建多樣化圖形界面操作數(shù)據(jù)集；根據(jù)ui操作軌跡數(shù)據(jù)集合及多樣化圖形界面操作數(shù)據(jù)集，訓(xùn)練多模態(tài)模型，形成ui操作智能體；跨系統(tǒng)應(yīng)用循環(huán)訓(xùn)練調(diào)優(yōu)ui操作智能體跨不同操作系統(tǒng)和應(yīng)用進(jìn)行泛化；構(gòu)建ui操作智能體驗證架構(gòu)，在ui操作評估測試集上測試ui操作智能體，同步驗證智能體在基準(zhǔn)測試中的定位能效和導(dǎo)航能效及多任務(wù)并行操作能效；能夠通過大數(shù)據(jù)抓取和處理多模態(tài)教程，構(gòu)建了一個覆蓋多個（包括五個）操作系統(tǒng)和操作系統(tǒng)下（200）多個應(yīng)用程序的圖形界面(ui)操作數(shù)據(jù)集。將該數(shù)據(jù)集命名為gui-net數(shù)據(jù)集（多樣化圖形界面數(shù)據(jù)集）。該數(shù)據(jù)集總共包含了143k（標(biāo)注）ui操作軌跡數(shù)據(jù)，使得多模態(tài)模型在學(xué)習(xí)后能夠順暢操作ui完成復(fù)雜任務(wù);提出了ui操作智能體框架。該框架自動將多模態(tài)ui操作教程收集整合及大數(shù)據(jù)分析挖掘處理，并行成ui操作軌跡數(shù)據(jù)集合來訓(xùn)練多模態(tài)模型；多模態(tài)模型包括文字圖像多模態(tài)ai智能問答大模型、文字語音識別多模態(tài)ai智能大模型或文字語音圖像視頻混合生成多模態(tài)ai智能大模型；最終訓(xùn)練的ui操作智能體能夠跨不同操作系統(tǒng)和應(yīng)用進(jìn)行泛化;開發(fā)了ui操作智能體?；诙鄻踊瘓D形界面數(shù)據(jù)集，在ai智能大模型上進(jìn)行調(diào)節(jié)。并基于調(diào)節(jié)后模型開發(fā)了ui操作智能體驗證架構(gòu)?；谠擈炞C架構(gòu)，能夠驗證該模型顯著提高了智能體在常用基準(zhǔn)測試中的定位和導(dǎo)航能效，相較于基線智能體有約10%的提升;一個ui操作軌跡訓(xùn)練數(shù)據(jù)集，以提升ui操作智能體在不同操作系統(tǒng)和應(yīng)用中的適應(yīng)性和能效;一個自動化收集，處理網(wǎng)絡(luò)公開ui教程的系統(tǒng)，以持續(xù)構(gòu)建提升ui操作數(shù)據(jù)集;一種調(diào)節(jié)ai智能大模型方法，和智能體構(gòu)建方法，以支持實時的完成ui操作任務(wù)效率顯著提升；本發(fā)明具有重要技術(shù)意義和顯著效果。

42、本發(fā)明所述的一種提升智能體能效操作任務(wù)能效方法和系統(tǒng)，本發(fā)明的其它優(yōu)點(diǎn)、目標(biāo)和特征將部分通過下面的說明體現(xiàn)，部分還將通過對本發(fā)明的研究和實踐而為本領(lǐng)域的技術(shù)人員所理解。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張博飛,高志,李慶
技術(shù)所有人：北京通用人工智能研究院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

一種提升智能體能效操作任務(wù)能效方法及系統(tǒng)與流程