最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法與流程

文檔序號(hào):41948814發(fā)布日期:2025-05-16 14:06閱讀:4來(lái)源:國(guó)知局
結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法與流程

本發(fā)明屬于數(shù)據(jù)采集,具體為結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法。


背景技術(shù):

1、在大數(shù)據(jù)時(shí)代,信息的采集是一項(xiàng)重要的工作,如果單純靠人力進(jìn)行信息采集,不僅低效繁瑣,搜集的成本也會(huì)提高。

2、而網(wǎng)絡(luò)爬蟲也叫做網(wǎng)絡(luò)機(jī)器人,可以代替人們自動(dòng)地在互聯(lián)網(wǎng)中進(jìn)行數(shù)據(jù)信息的采集與整理,工作人員可以使用網(wǎng)絡(luò)爬蟲對(duì)特定的目標(biāo)網(wǎng)站上,感興趣的數(shù)據(jù)進(jìn)行數(shù)據(jù)采集,應(yīng)用于數(shù)據(jù)分析、輿情監(jiān)測(cè)等多個(gè)應(yīng)用場(chǎng)景,但是不同領(lǐng)域不同類型的網(wǎng)站都會(huì)有各不相同的反爬取策略。

3、首先是客戶端反爬,前端對(duì)請(qǐng)求的api的參數(shù)進(jìn)行加密,動(dòng)態(tài)加載,網(wǎng)站會(huì)使用例如:ajax動(dòng)態(tài)加載內(nèi)容,瀏覽器偽裝識(shí)別技術(shù)、防調(diào)試、代碼混淆等相關(guān)前端反爬技術(shù),其次就是服務(wù)器端反爬,網(wǎng)站會(huì)針對(duì)訪問(wèn)頻次、訪問(wèn)特征、訪問(wèn)ip等進(jìn)行識(shí)別驗(yàn)證,并通過(guò)大數(shù)據(jù)分析,人工智能等技術(shù),根據(jù)驗(yàn)證碼進(jìn)行二次驗(yàn)證人機(jī)識(shí)別。

4、目前為了能夠抓取到網(wǎng)站加密后的數(shù)據(jù),通常需要對(duì)特定網(wǎng)站采集數(shù)據(jù)的前置條件等進(jìn)行分析,然后還要分析網(wǎng)站的反爬蟲策略,并逐一破解,才可以最終獲取到想要的數(shù)據(jù),然而由于不同領(lǐng)域、不同類型的網(wǎng)站的網(wǎng)頁(yè)結(jié)構(gòu),其反爬策略都不相同,需要大量的時(shí)間去分析破解各自的反爬手段,學(xué)習(xí)成本較高,如果數(shù)據(jù)結(jié)構(gòu)和反爬策略變更,則會(huì)導(dǎo)致數(shù)據(jù)采集的穩(wěn)定性差,維護(hù)性差,因此需要一種能夠穩(wěn)定實(shí)現(xiàn)數(shù)據(jù)抓取的方案來(lái)進(jìn)行優(yōu)化。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法,以解決上述背景技術(shù)中提出的問(wèn)題。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法,該方案基于chrome插件擴(kuò)展并通過(guò)簡(jiǎn)單配置需要抓取網(wǎng)站的地址和數(shù)據(jù)接口url的方式,實(shí)現(xiàn)對(duì)目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行抓取,且該方案的具體步驟為:

3、步驟一,任務(wù)計(jì)劃配置,在部署服務(wù)器配置計(jì)劃任務(wù);

4、步驟二,任務(wù)信息配置,對(duì)目標(biāo)網(wǎng)站的服務(wù)器數(shù)據(jù)進(jìn)行提取配置;

5、步驟三,抓取任務(wù)執(zhí)行,通過(guò)vbs腳本啟動(dòng)瀏覽器,并對(duì)網(wǎng)站頁(yè)面進(jìn)行跳轉(zhuǎn);

6、步驟四,數(shù)據(jù)抓取保存,匹配抓取需要的數(shù)據(jù)信息進(jìn)行保存;

7、步驟五,數(shù)據(jù)上傳,將采集的數(shù)據(jù)上傳至遠(yuǎn)程web服務(wù)器。

8、優(yōu)選地,所述任務(wù)調(diào)度執(zhí)行階段,使用wi?ndows定時(shí)任務(wù)來(lái)定期執(zhí)行vbs腳本,所述vbs腳本負(fù)責(zé)啟動(dòng)瀏覽器進(jìn)行爬取任務(wù)。

9、優(yōu)選地,所述任務(wù)信息配置階段會(huì)將服務(wù)器數(shù)據(jù)配置到chrome插件內(nèi),其中服務(wù)器數(shù)據(jù)包括抓取的目標(biāo)地址,目標(biāo)的數(shù)據(jù)接口地址以及數(shù)據(jù)保存的服務(wù)器地址信息。

10、優(yōu)選地,所述抓取任務(wù)執(zhí)行階段的具體步驟為:

11、a1,wi?ndows定時(shí)任務(wù)啟動(dòng),并自動(dòng)執(zhí)行vbs腳本;

12、a2,vbs腳本會(huì)啟動(dòng)瀏覽器,啟動(dòng)瀏覽器的同時(shí)chrome插件會(huì)通過(guò)配置的目標(biāo)網(wǎng)站地址執(zhí)行tampermonkey插件;

13、a3,tampermonkey插件會(huì)根據(jù)目標(biāo)網(wǎng)站地址進(jìn)行頁(yè)面的跳轉(zhuǎn),對(duì)所有的網(wǎng)絡(luò)請(qǐng)求進(jìn)行監(jiān)聽(tīng);

14、a4,此時(shí)可通過(guò)chrome插件對(duì)數(shù)據(jù)信息進(jìn)行抓取。

15、優(yōu)選地,所述vbs腳本可打開真實(shí)的chrome瀏覽器,并結(jié)合tampermonkey插件對(duì)頁(yè)面進(jìn)行跳轉(zhuǎn)的方式進(jìn)行數(shù)據(jù)抓取,可規(guī)避網(wǎng)站對(duì)模擬瀏覽器采集封殺和限制。

16、優(yōu)選地,所述數(shù)據(jù)抓取保存階段,所述chrome插件會(huì)對(duì)地址欄的地址信息和配置文件中的數(shù)據(jù)接口地址進(jìn)行比對(duì),并且在地址匹配時(shí),抓取所需要的信息進(jìn)行保存。

17、優(yōu)選地,所述數(shù)據(jù)上傳階段,保存好的數(shù)據(jù)信息通過(guò)http?post方式異步提交到遠(yuǎn)程的web服務(wù)器,完成數(shù)據(jù)抓取的整個(gè)過(guò)程。

18、優(yōu)選地,所述wi?ndows定時(shí)任務(wù)可設(shè)定vbs腳本的執(zhí)行間隔,負(fù)責(zé)模擬正常的訪問(wèn)頻次。

19、本發(fā)明的有益效果如下:

20、1、本發(fā)明通過(guò)啟動(dòng)真實(shí)的chrome瀏覽器并結(jié)合tampermonkey插件進(jìn)行爬取的方式,避免了如模擬瀏覽器封殺和ip限制等常見(jiàn)的反爬機(jī)制的攔截,能夠有效繞過(guò)反爬策略,提高了數(shù)據(jù)抓取的效率,并且相較于傳統(tǒng)方法,本方案僅需通過(guò)配置文件配置服務(wù)器的各項(xiàng)數(shù)據(jù),即可指定的,快速的對(duì)目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行采集,更重要的是整個(gè)抓取過(guò)程能夠快速配置并適應(yīng)不同的網(wǎng)站和數(shù)據(jù)源,操作簡(jiǎn)單,減小了學(xué)習(xí)成本。

21、2、本發(fā)明通過(guò)wi?ndows定時(shí)任務(wù)執(zhí)行vbs腳本,使數(shù)據(jù)抓取任務(wù)在配置完成后,可自動(dòng)的定期執(zhí)行抓取任務(wù),無(wú)需手動(dòng)啟動(dòng)腳本,減輕了抓取負(fù)擔(dān),更重要的是,在長(zhǎng)時(shí)間抓取時(shí),可通過(guò)wi?ndows定時(shí)任務(wù)設(shè)定vbs腳本的執(zhí)行間隔,模擬正常的訪問(wèn)頻次,避免觸發(fā)反爬機(jī)制的二次驗(yàn)證,保證了數(shù)據(jù)抓取的流暢性,減少被識(shí)別的風(fēng)險(xiǎn),使得抓取效率高,干擾少。

22、3、本發(fā)明通過(guò)tampermonkey插件對(duì)瀏覽器地址欄的url和配置文件中的數(shù)據(jù)接口地址進(jìn)行比對(duì),確保抓取到的數(shù)據(jù)符合預(yù)定規(guī)則,并且能對(duì)數(shù)據(jù)進(jìn)行精確的匹配,避免抓取到無(wú)關(guān)的數(shù)據(jù),提高了數(shù)據(jù)抓取的質(zhì)量和精度,再通過(guò)http?post,將數(shù)據(jù)異步上傳到遠(yuǎn)程服務(wù)器,確保了數(shù)據(jù)上傳的高效性的同時(shí)不會(huì)阻塞抓取任務(wù)的進(jìn)行,提高了適用性。



技術(shù)特征:

1.結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法,其特征在于:該方案基于chrome插件擴(kuò)展并通過(guò)簡(jiǎn)單配置需要抓取網(wǎng)站的地址和數(shù)據(jù)接口url的方式,實(shí)現(xiàn)對(duì)目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行抓取,且該方案的具體步驟為:

2.根據(jù)權(quán)利要求1所述的結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法,其特征在于:所述任務(wù)調(diào)度執(zhí)行階段,使用windows定時(shí)任務(wù)來(lái)定期執(zhí)行vbs腳本,所述vbs腳本負(fù)責(zé)啟動(dòng)瀏覽器進(jìn)行爬取任務(wù)。

3.根據(jù)權(quán)利要求1所述的結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法,其特征在于:所述任務(wù)信息配置階段會(huì)將服務(wù)器數(shù)據(jù)配置到chrome插件內(nèi),其中服務(wù)器數(shù)據(jù)包括抓取的目標(biāo)地址,目標(biāo)的數(shù)據(jù)接口地址以及數(shù)據(jù)保存的服務(wù)器地址信息。

4.根據(jù)權(quán)利要求1所述的結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法,其特征在于:所述抓取任務(wù)執(zhí)行階段的具體步驟為:

5.根據(jù)權(quán)利要求1所述的結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法,其特征在于:所述vbs腳本可打開真實(shí)的chrome瀏覽器,并結(jié)合tampermonkey插件對(duì)頁(yè)面進(jìn)行跳轉(zhuǎn)的方式進(jìn)行數(shù)據(jù)抓取,可規(guī)避網(wǎng)站對(duì)模擬瀏覽器采集封殺和限制。

6.根據(jù)權(quán)利要求1所述的結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法,其特征在于:所述數(shù)據(jù)抓取保存階段,所述chrome插件會(huì)對(duì)地址欄的地址信息和配置文件中的數(shù)據(jù)接口地址進(jìn)行比對(duì),并且在地址匹配時(shí),抓取所需要的信息進(jìn)行保存。

7.根據(jù)權(quán)利要求1所述的結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法,其特征在于:所述數(shù)據(jù)上傳階段,保存好的數(shù)據(jù)信息通過(guò)http?post方式異步提交到遠(yuǎn)程的web服務(wù)器,完成數(shù)據(jù)抓取的整個(gè)過(guò)程。

8.根據(jù)權(quán)利要求2所述的結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法,其特征在于:所述windows定時(shí)任務(wù)可設(shè)定vbs腳本的執(zhí)行間隔,負(fù)責(zé)模擬正常的訪問(wèn)頻次。


技術(shù)總結(jié)
本發(fā)明屬于數(shù)據(jù)采集技術(shù)領(lǐng)域,且公開了結(jié)合瀏覽器插件實(shí)現(xiàn)數(shù)據(jù)抓取的方法,該方案基于Chrome插件擴(kuò)展并通過(guò)簡(jiǎn)單配置需要抓取網(wǎng)站的地址和數(shù)據(jù)接口URL的方式,實(shí)現(xiàn)對(duì)目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行抓取,且該方案的具體步驟為:步驟一,任務(wù)計(jì)劃配置;步驟二,任務(wù)信息配置;步驟三,抓取任務(wù)執(zhí)行;步驟四,數(shù)據(jù)抓取保存;步驟五,數(shù)據(jù)上傳。本發(fā)明通過(guò)啟動(dòng)真實(shí)的Chrome瀏覽器并結(jié)合Tampermonkey插件進(jìn)行爬取的方式,能夠有效繞過(guò)反爬策略,提高了數(shù)據(jù)抓取的效率,并且相較于傳統(tǒng)方法,本方案僅需通過(guò)配置文件配置服務(wù)器的各項(xiàng)數(shù)據(jù),即可指定的,快速的對(duì)目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行采集,操作簡(jiǎn)單,減小了學(xué)習(xí)成本。

技術(shù)研發(fā)人員:冷冰
受保護(hù)的技術(shù)使用者:海南車友家信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/15
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1