本發(fā)明涉及人工智能應(yīng)用、自動(dòng)化技術(shù)和大數(shù)據(jù)分析領(lǐng)域,具體為基于?ai?智能體與多模態(tài)訓(xùn)練執(zhí)行框架的自動(dòng)化事務(wù)操作方法、系統(tǒng)及硬件。
背景技術(shù):
1、人工智能作為新一代信息技術(shù)的核心驅(qū)動(dòng)力,通過模擬人類智能的感知、推理與決策能力,已在多個(gè)領(lǐng)域展現(xiàn)出變革性潛力。自深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)技術(shù)突破以來,ai逐步從理論研究走向?qū)嶋H應(yīng)用,尤其在計(jì)算機(jī)視覺、自然語言處理、自動(dòng)化控制等領(lǐng)域取得顯著進(jìn)展。ai技術(shù)的核心價(jià)值在于通過算法優(yōu)化與算力提升,替代或輔助人類完成重復(fù)性、高復(fù)雜度任務(wù),從而提升效率并降低人工成本,成為推動(dòng)產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的重要技術(shù)基礎(chǔ)。
2、盡管大模型在文本生成、知識(shí)問答等通用領(lǐng)域表現(xiàn)突出,但其在具體行業(yè)場(chǎng)景中的落地仍面臨多重瓶頸。首先,大模型的訓(xùn)練與推理依賴海量算力資源,難以適配對(duì)實(shí)時(shí)性要求較高的自動(dòng)化操作場(chǎng)景;其次,通用模型缺乏對(duì)垂直領(lǐng)域業(yè)務(wù)邏輯的深度理解,無法直接滿足智能出行、電商運(yùn)營(yíng)等場(chǎng)景中對(duì)精確操作規(guī)則的需求。此外,現(xiàn)有ai系統(tǒng)多局限于單一模態(tài),難以有效融合跨設(shè)備傳感器數(shù)據(jù)與動(dòng)態(tài)環(huán)境反饋,導(dǎo)致跨平臺(tái)任務(wù)執(zhí)行的適配能力不足。傳統(tǒng)的自動(dòng)化腳本受技術(shù)的局限,需重復(fù)開發(fā),維護(hù)成本高,且更新依賴人工編程。這些問題使得大模型技術(shù)尚未在自動(dòng)化事務(wù)處理領(lǐng)域形成規(guī)?;瘧?yīng)用。
3、綜上,需要提出基于ai智能體與多模態(tài)訓(xùn)練執(zhí)行框架的自動(dòng)化事物操作方法、系統(tǒng)及硬件來解決上述的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明旨在提供一種基于ai智能體與多模態(tài)訓(xùn)練執(zhí)行框架的自動(dòng)化事務(wù)操作方法、系統(tǒng)及硬件,以解決現(xiàn)有數(shù)字化業(yè)務(wù)中人工參與度過高、智能化水平不足、自動(dòng)化適配困難及自動(dòng)化維護(hù)困難等問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下方法:
3、通過硬件操作系統(tǒng),讓ai智能體具備遠(yuǎn)程無線控制能力,進(jìn)而實(shí)現(xiàn)對(duì)設(shè)備的遠(yuǎn)程操作。
4、通過ai智能體端進(jìn)行用戶信息收集,并對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理。
5、基于信息收集安全規(guī)范,收集信息的過程中利用加密網(wǎng)絡(luò)協(xié)議和專用通信通道進(jìn)行采集,強(qiáng)化用戶信息管理和隱私保護(hù),確保用戶數(shù)據(jù)安全。
6、定義并實(shí)現(xiàn)了一組自動(dòng)化操作規(guī)范,其主要操作對(duì)象為定制系統(tǒng)上運(yùn)行的第三方服務(wù)商提供的app、小程序、網(wǎng)頁等應(yīng)用。規(guī)范僅采用屏幕截圖和屏幕點(diǎn)擊兩種操作方式,完全模擬正常用戶與設(shè)備的交互,不依賴服務(wù)提供商的api接口和網(wǎng)絡(luò)抓包技術(shù),可適配絕大部分市面上的硬件操作系統(tǒng),甚至可通過外接攝像頭和外掛機(jī)械臂的方式實(shí)現(xiàn)操作,進(jìn)一步降低對(duì)底層操作系統(tǒng)的限制。
7、定義并實(shí)現(xiàn)了一組可編程的訓(xùn)練模型邏輯控制規(guī)則,規(guī)則包括邏輯控制(判斷、分支、循環(huán))和邏輯操作(對(duì)硬件設(shè)備的屏幕判斷/狀態(tài)判斷、對(duì)硬件設(shè)備的操作)兩部分,可用于構(gòu)建任意業(yè)務(wù)的訓(xùn)練模型,通過對(duì)每一個(gè)業(yè)務(wù)場(chǎng)景進(jìn)行人工歸納和總結(jié),使用規(guī)則進(jìn)行描述,形成業(yè)務(wù)通用訓(xùn)練模型。
8、通過邏輯執(zhí)行單元,解釋執(zhí)行訓(xùn)練模型邏輯控制規(guī)則,生成推理執(zhí)行路徑。
9、通過腳本合并與更新機(jī)制,將多條推理執(zhí)行路徑合并成一個(gè)腳本,并在路徑發(fā)生變化時(shí)進(jìn)行更新迭代。
10、通過搭建眾包數(shù)據(jù)采集系統(tǒng),對(duì)訓(xùn)練場(chǎng)景和數(shù)據(jù)進(jìn)行收集,基于互聯(lián)網(wǎng)社交模式,讓全國(guó)用戶自行上傳樣本數(shù)據(jù),收集各種業(yè)務(wù)場(chǎng)景的觸發(fā)條件,為訓(xùn)練提供豐富的數(shù)據(jù)支持。
11、通過人工校正機(jī)制,在訓(xùn)練和推理執(zhí)行過程中,若出現(xiàn)訓(xùn)練模型未覆蓋的新場(chǎng)景或處理邏輯不完備的情況,人工介入審查,增加對(duì)應(yīng)場(chǎng)景或增強(qiáng)規(guī)則的健壯性,確保訓(xùn)練模型的完備性和健壯性。
12、通過多模型ai推理決策機(jī)制,在模型訓(xùn)練時(shí),讓ai在有限場(chǎng)景下進(jìn)行推理。通過約束推理,告知ai每個(gè)階段的場(chǎng)景數(shù)量,使其從給定場(chǎng)景中選擇;同時(shí)提供先驗(yàn)知識(shí),詳細(xì)列舉每個(gè)場(chǎng)景的特征作為判斷依據(jù),從而提高ai輸出的準(zhǔn)確性。
13、通過多模態(tài)ai推理執(zhí)行框架,實(shí)現(xiàn)腳本任務(wù)下發(fā)、執(zhí)行、報(bào)告收集和結(jié)果分析,保障自動(dòng)化事務(wù)操作的順利進(jìn)行。
14、基于大數(shù)據(jù)計(jì)算公共資源使用度的算法,通過歷史數(shù)據(jù)和用戶當(dāng)前信息,計(jì)算公共資源的可用概率。
15、基于上述方法,本發(fā)明實(shí)現(xiàn)了如下系統(tǒng):
16、互聯(lián)網(wǎng)社區(qū)運(yùn)營(yíng)模塊和數(shù)據(jù)眾包采集模塊,用于發(fā)布訓(xùn)練數(shù)據(jù)收集任務(wù),收集公共資源信息,用戶運(yùn)營(yíng),建設(shè)ai應(yīng)用生態(tài)。
17、多模態(tài)ai訓(xùn)練模塊,用于自動(dòng)化訓(xùn)練ai模型,生成和維護(hù)推理執(zhí)行腳本。
18、多模態(tài)ai推理執(zhí)行模塊,用于執(zhí)行推理執(zhí)行腳本。
19、硬件包括:定制的操作系統(tǒng),提供遠(yuǎn)程操控能力、獲取高級(jí)系統(tǒng)權(quán)限、開放操作系統(tǒng)底層命令。
20、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
21、技術(shù)優(yōu)勢(shì)顯著:借助深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)技術(shù)賦予ai智能體強(qiáng)大的復(fù)雜決策處理能力,通過機(jī)器學(xué)習(xí)算法提升數(shù)據(jù)處理效率。自動(dòng)化腳本區(qū)分探索與執(zhí)行階段,降低腳本學(xué)習(xí)和維護(hù)成本,人工校正機(jī)制保障腳本穩(wěn)定運(yùn)行,同時(shí)支持自然語言處理、語音識(shí)別等技術(shù),實(shí)現(xiàn)自然的人機(jī)交互。
22、應(yīng)用場(chǎng)景豐富:在出行領(lǐng)域,可實(shí)時(shí)分析停車場(chǎng)、加油站等數(shù)據(jù),規(guī)劃出行路線,避開擁堵,提升出行效率;精準(zhǔn)定位目標(biāo),監(jiān)測(cè)車輛狀態(tài)和行駛環(huán)境,保障駕駛安全。還能拓展至電子商務(wù)、金融、安防等多領(lǐng)域,如電商自動(dòng)處理訂單、金融風(fēng)險(xiǎn)評(píng)估、安防監(jiān)控視頻分析等。
23、經(jīng)濟(jì)與社會(huì)價(jià)值高:減少人力成本和資源浪費(fèi),提升各行業(yè)運(yùn)營(yíng)效率;改善用戶體驗(yàn),為用戶節(jié)約時(shí)間;推動(dòng)各行業(yè)數(shù)字化轉(zhuǎn)型,促進(jìn)社會(huì)經(jīng)濟(jì)發(fā)展,同時(shí)保障數(shù)據(jù)安全和系統(tǒng)穩(wěn)定運(yùn)行。
1.一種基于ai智能體與多模態(tài)訓(xùn)練執(zhí)行框架的自動(dòng)化事務(wù)操作方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述s3進(jìn)一步包括:通過截屏和屏幕點(diǎn)擊操作完全模擬用戶行為,適配各類操作系統(tǒng)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述s4進(jìn)一步包括:定義了一套用于描述訓(xùn)練模型的可編程語言。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述s7中,眾包數(shù)據(jù)采集系統(tǒng)基于互聯(lián)網(wǎng)社交模式,由用戶主動(dòng)上傳業(yè)務(wù)場(chǎng)景數(shù)據(jù),并通過數(shù)據(jù)脫敏與隱私保護(hù)機(jī)制確保合規(guī)性。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述s8還包括人工校正模塊,當(dāng)推理執(zhí)行腳本未覆蓋新場(chǎng)景或發(fā)生識(shí)別錯(cuò)誤時(shí),人工標(biāo)注界面元素特征并更新訓(xùn)練模型。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多模態(tài)ai訓(xùn)練推理執(zhí)行框架進(jìn)一步包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多模態(tài)ai訓(xùn)練推理執(zhí)行框架中設(shè)有ai推理決策機(jī)制,通過向ai提供預(yù)設(shè)場(chǎng)景選項(xiàng)及判斷依據(jù),約束ai在有限范圍內(nèi)選擇操作路徑。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述推理執(zhí)行階段的任務(wù)下發(fā)模塊通過分布式架構(gòu)調(diào)度腳本執(zhí)行,結(jié)果分析模塊通過統(tǒng)計(jì)執(zhí)行日志優(yōu)化業(yè)務(wù)策略。
9.一種基于ai智能體與多模態(tài)訓(xùn)練執(zhí)行框架的自動(dòng)化事務(wù)操作系統(tǒng),其特征在于,用于實(shí)現(xiàn)如權(quán)利要求?1?-?8中任意一項(xiàng)所述的自動(dòng)化事務(wù)操作方法,所述系統(tǒng)包括:
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,進(jìn)一步包括:
11.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述多模態(tài)ai推理執(zhí)行模塊進(jìn)一步包括:
12.一種用于實(shí)施權(quán)利如權(quán)利要求?1?-?8中任一所述方法的自動(dòng)化事務(wù)操作硬件裝置,其特征在于,包括: