最新的毛片基地免费,国产国语一级毛片,免费国产成人高清在线电影,中天堂国产日韩欧美,中国国产aa一级毛片,国产va欧美va在线观看,成人不卡在线

爬取算法的制作方法

文檔序號:41984333發(fā)布日期:2025-05-23 16:39閱讀:4來源:國知局
爬取算法的制作方法

本公開涉及爬取算法。


背景技術(shù):

1、web爬取器(crawler)是系統(tǒng)地瀏覽萬維網(wǎng)以索引web頁面的當(dāng)前版本的軟件應(yīng)用,通常供搜索引擎使用。理論上,web爬取器應(yīng)當(dāng)具有可供搜索引擎使用的每個(gè)web頁面的最近副本。然而,用web頁面的當(dāng)前版本來更新索引可在計(jì)算上是昂貴的,特別是對于大量web頁面而言。因此,web爬取的一個(gè)問題是使web頁面的高速緩存保持新鮮,同時(shí)限制可用資源上的費(fèi)用。


技術(shù)實(shí)現(xiàn)思路

1、本公開的一個(gè)方面提供了一種用于爬取算法的計(jì)算機(jī)實(shí)現(xiàn)的方法。計(jì)算機(jī)實(shí)現(xiàn)的方法由數(shù)據(jù)處理硬件執(zhí)行,這致使數(shù)據(jù)處理硬件執(zhí)行操作,該操作包括獲得供web爬取器爬取的多個(gè)web頁面。操作包括確定web爬取器的可用帶寬。操作還包括,對于多個(gè)web頁面中的每個(gè)相應(yīng)web頁面,基于可用帶寬來確定用于相應(yīng)web頁面的相應(yīng)爬取值,確定相應(yīng)web頁面的相應(yīng)爬取值滿足閾值,以及響應(yīng)于確定相應(yīng)web頁面的相應(yīng)爬取值滿足閾值,更新高速緩存存儲器中的相應(yīng)web頁面。

2、本公開的實(shí)現(xiàn)方式可以包括以下任選特征中的一個(gè)或多個(gè)任選特征。在一些實(shí)現(xiàn)方式中,相應(yīng)爬取值基于從相應(yīng)web頁面接收的改變指示信號。在這些實(shí)現(xiàn)方式中,改變指示信號可以包括真陽性信號或假陽性信號。同樣在這些實(shí)現(xiàn)方式中,改變指示信號可以包括延遲的信號。

3、可用帶寬可以滿足帶寬閾值。此外,確定相應(yīng)爬取值可以包括使用機(jī)器學(xué)習(xí)引擎來確定相應(yīng)爬取值。在一些實(shí)現(xiàn)方式中,操作包括將多個(gè)web頁面劃分成多個(gè)分片(shard)。在這些實(shí)現(xiàn)方式中,操作包括,對于多個(gè)分片中的每個(gè)相應(yīng)分片,基于可用帶寬來確定相應(yīng)分片的相應(yīng)分片爬取值,確定相應(yīng)分片的相應(yīng)分片爬取值滿足閾值分片值,并且響應(yīng)于確定相應(yīng)分片的相應(yīng)分片爬取值滿足閾值分片值,更新高速緩存存儲器中的相應(yīng)分片的每個(gè)web頁面。在這些實(shí)現(xiàn)方式中,可以為每個(gè)相應(yīng)分片指派包括可用帶寬的部分的相應(yīng)分片帶寬。

4、在一些實(shí)現(xiàn)方式中,操作包括,對于多個(gè)web頁面中的每個(gè)相應(yīng)web頁面,估計(jì)相應(yīng)web頁面的相應(yīng)爬取值的更新時(shí)間,以及在所估計(jì)的更新時(shí)間更新相應(yīng)web頁面的相應(yīng)爬取值。操作還可以包括,對于多個(gè)web頁面中的每個(gè)相應(yīng)web頁面,在離散時(shí)間間隔的每個(gè)時(shí)間步更新用于相應(yīng)web頁面的相應(yīng)爬取值。

5、本公開的另一方面提供了一種用于爬取算法的系統(tǒng)。該系統(tǒng)包括數(shù)據(jù)處理硬件和與數(shù)據(jù)處理硬件通信的存儲器硬件。存儲器硬件存儲指令,該指令當(dāng)在數(shù)據(jù)處理硬件上被執(zhí)行時(shí)使數(shù)據(jù)處理硬件執(zhí)行操作。操作包括獲得供web爬取器爬取的多個(gè)web頁面。操作包括確定web爬取器的可用帶寬。操作還包括,對于多個(gè)web頁面中的每個(gè)相應(yīng)web頁面,基于可用帶寬來確定用于相應(yīng)web頁面的相應(yīng)爬取值,確定相應(yīng)web頁面的相應(yīng)爬取值滿足閾值,以及響應(yīng)于確定相應(yīng)web頁面的相應(yīng)爬取值滿足閾值,更新高速緩存存儲器中的相應(yīng)web頁面。

6、該方面可以包括以下任選特征中的一個(gè)或多個(gè)任選特征。在一些實(shí)現(xiàn)方式中,相應(yīng)爬取值基于從相應(yīng)web頁面接收的改變指示信號。在這些實(shí)現(xiàn)方式中,改變指示信號可以包括真陽性信號或假陽性信號。同樣在這些實(shí)現(xiàn)方式中,改變指示信號可以包括延遲的信號。

7、可用帶寬可以滿足帶寬閾值。此外,確定相應(yīng)爬取值可以包括使用機(jī)器學(xué)習(xí)引擎來確定相應(yīng)爬取值。在一些實(shí)現(xiàn)方式中,操作包括將多個(gè)web頁面劃分成多個(gè)分片。在這些實(shí)現(xiàn)方式中,操作包括,對于多個(gè)分片中的每個(gè)相應(yīng)分片,基于可用帶寬來確定相應(yīng)分片的相應(yīng)分片爬取值,確定相應(yīng)分片的相應(yīng)分片爬取值滿足閾值分片值,并且響應(yīng)于確定相應(yīng)分片的相應(yīng)分片爬取值滿足閾值分片值,更新高速緩存存儲器中的相應(yīng)分片的每個(gè)web頁面。在這些實(shí)現(xiàn)方式中,可以為每個(gè)相應(yīng)分片指派包括可用帶寬的部分的相應(yīng)分片帶寬。

8、在一些實(shí)現(xiàn)方式中,操作包括,對于多個(gè)web頁面中的每個(gè)相應(yīng)web頁面,估計(jì)相應(yīng)web頁面的相應(yīng)爬取值的更新時(shí)間,以及在所估計(jì)的更新時(shí)間更新相應(yīng)web頁面的相應(yīng)爬取值。操作還可以包括,對于多個(gè)web頁面中的每個(gè)相應(yīng)web頁面,在離散時(shí)間間隔的每個(gè)時(shí)間步更新用于相應(yīng)web頁面的相應(yīng)爬取值。

9、本公開的一個(gè)或多個(gè)實(shí)現(xiàn)方式的細(xì)節(jié)在附圖和下面的描述中闡述。根據(jù)說明書和附圖以及權(quán)利要求,其他方面、特征和優(yōu)點(diǎn)將顯而易見。



技術(shù)特征:

1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法(300),所述計(jì)算機(jī)實(shí)現(xiàn)的方法在由數(shù)據(jù)處理硬件(16,144)執(zhí)行時(shí)使所述數(shù)據(jù)處理硬件(16,144)執(zhí)行操作,其特征在于,所述操作包括:

2.根據(jù)權(quán)利要求1所述的方法(300),其特征在于,所述相應(yīng)爬取值(153)基于從所述相應(yīng)web頁面(152)接收的改變指示信號(172)。

3.根據(jù)權(quán)利要求2所述的方法(300),其特征在于,所述改變指示信號(172)包括真陽性信號或假陽性信號。

4.根據(jù)權(quán)利要求2或3所述的方法(300),其特征在于,所述改變指示信號(172)包括延遲的信號。

5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法(300),其特征在于,所述可用帶寬(155)滿足帶寬閾值。

6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的方法(300),其特征在于,確定所述相應(yīng)爬取值(153)包括使用機(jī)器學(xué)習(xí)引擎(161)來確定所述相應(yīng)爬取值(153)。

7.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法(300),其特征在于,所述操作還包括:

8.根據(jù)權(quán)利要求7所述的方法(300),其特征在于,為每個(gè)相應(yīng)分片指派相應(yīng)分片帶寬,所述相應(yīng)分片帶寬包括所述可用帶寬(155)的一部分。

9.根據(jù)權(quán)利要求1至8中任一項(xiàng)所述的方法(300),其特征在于,所述操作還包括,對于所述多個(gè)web頁面(152)中的每個(gè)相應(yīng)web頁面(152):

10.根據(jù)權(quán)利要求1至9中任一項(xiàng)所述的方法(300),其特征在于,所述操作還包括,對于所述多個(gè)web頁面(152)中的每個(gè)相應(yīng)web頁面(152),在離散時(shí)間間隔的每個(gè)時(shí)間步更新用于所述相應(yīng)web頁面(152)的所述相應(yīng)爬取值(153)。

11.一種系統(tǒng)(100),其特征在于,包括:

12.根據(jù)權(quán)利要求11所述的系統(tǒng)(100),其特征在于,所述相應(yīng)爬取值(153)基于從所述相應(yīng)web頁面(152)接收的改變指示信號(172)。

13.根據(jù)權(quán)利要求12所述的系統(tǒng)(100),其特征在于,所述改變指示信號(172)包括真陽性信號或假陽性信號。

14.根據(jù)權(quán)利要求12或13所述的系統(tǒng)(100),其特征在于,所述改變指示信號(172)包括延遲的信號。

15.根據(jù)權(quán)利要求11至14中任一項(xiàng)所述的系統(tǒng)(100),其特征在于,所述可用帶寬(155)滿足帶寬閾值。

16.根據(jù)權(quán)利要求11至15中任一項(xiàng)所述的系統(tǒng)(100),其特征在于,確定所述相應(yīng)爬取值(153)包括使用機(jī)器學(xué)習(xí)引擎(161)來確定所述相應(yīng)爬取值(153)。

17.根據(jù)權(quán)利要求11至16中任一項(xiàng)所述的系統(tǒng)(100),其特征在于,所述操作還包括:

18.根據(jù)權(quán)利要求17所述的系統(tǒng)(100),其特征在于,為每個(gè)相應(yīng)分片指派相應(yīng)分片帶寬,所述相應(yīng)分片帶寬包括所述可用帶寬(155)的一部分。

19.根據(jù)權(quán)利要求11至18中任一項(xiàng)所述的系統(tǒng)(100),其特征在于,所述操作還包括,對于所述多個(gè)web頁面(152)中的每個(gè)相應(yīng)web頁面(152):

20.根據(jù)權(quán)利要求11至19中任一項(xiàng)所述的系統(tǒng)(100),其特征在于,所述操作還包括,對于所述多個(gè)web頁面(152)中的每個(gè)相應(yīng)web頁面(152),在離散時(shí)間間隔的每個(gè)時(shí)間步更新用于所述相應(yīng)web頁面(152)的所述相應(yīng)爬取值(153)。


技術(shù)總結(jié)
一種用于爬取算法的方法(300)包括獲得供web爬取器(160)爬取的多個(gè)web頁面(152)。該方法還包括確定web爬取器的可用帶寬(155)。該方法包括,對于多個(gè)web頁面中的每個(gè)相應(yīng)web頁面,基于可用帶寬來確定用于相應(yīng)web頁面的相應(yīng)爬取值(153),以及確定相應(yīng)web頁面的相應(yīng)爬取值滿足閾值(162)。該方法包括,響應(yīng)于確定相應(yīng)web頁面的相應(yīng)爬取值滿足閾值,更新高速緩存存儲器(150)中的相應(yīng)web頁面。

技術(shù)研發(fā)人員:邱林海,羅伯特·伊斯特凡·布薩-費(fèi)克特,朱利安·烏爾夫·齊默特,安德拉什·吉奧吉,沈浩,崔孝敏,沙米拉·維賈伊,肖立
受保護(hù)的技術(shù)使用者:谷歌有限責(zé)任公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/22
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1