本公開涉及爬取算法。
背景技術(shù):
1、web爬取器(crawler)是系統(tǒng)地瀏覽萬維網(wǎng)以索引web頁面的當(dāng)前版本的軟件應(yīng)用,通常供搜索引擎使用。理論上,web爬取器應(yīng)當(dāng)具有可供搜索引擎使用的每個(gè)web頁面的最近副本。然而,用web頁面的當(dāng)前版本來更新索引可在計(jì)算上是昂貴的,特別是對于大量web頁面而言。因此,web爬取的一個(gè)問題是使web頁面的高速緩存保持新鮮,同時(shí)限制可用資源上的費(fèi)用。
技術(shù)實(shí)現(xiàn)思路
1、本公開的一個(gè)方面提供了一種用于爬取算法的計(jì)算機(jī)實(shí)現(xiàn)的方法。計(jì)算機(jī)實(shí)現(xiàn)的方法由數(shù)據(jù)處理硬件執(zhí)行,這致使數(shù)據(jù)處理硬件執(zhí)行操作,該操作包括獲得供web爬取器爬取的多個(gè)web頁面。操作包括確定web爬取器的可用帶寬。操作還包括,對于多個(gè)web頁面中的每個(gè)相應(yīng)web頁面,基于可用帶寬來確定用于相應(yīng)web頁面的相應(yīng)爬取值,確定相應(yīng)web頁面的相應(yīng)爬取值滿足閾值,以及響應(yīng)于確定相應(yīng)web頁面的相應(yīng)爬取值滿足閾值,更新高速緩存存儲器中的相應(yīng)web頁面。
2、本公開的實(shí)現(xiàn)方式可以包括以下任選特征中的一個(gè)或多個(gè)任選特征。在一些實(shí)現(xiàn)方式中,相應(yīng)爬取值基于從相應(yīng)web頁面接收的改變指示信號。在這些實(shí)現(xiàn)方式中,改變指示信號可以包括真陽性信號或假陽性信號。同樣在這些實(shí)現(xiàn)方式中,改變指示信號可以包括延遲的信號。
3、可用帶寬可以滿足帶寬閾值。此外,確定相應(yīng)爬取值可以包括使用機(jī)器學(xué)習(xí)引擎來確定相應(yīng)爬取值。在一些實(shí)現(xiàn)方式中,操作包括將多個(gè)web頁面劃分成多個(gè)分片(shard)。在這些實(shí)現(xiàn)方式中,操作包括,對于多個(gè)分片中的每個(gè)相應(yīng)分片,基于可用帶寬來確定相應(yīng)分片的相應(yīng)分片爬取值,確定相應(yīng)分片的相應(yīng)分片爬取值滿足閾值分片值,并且響應(yīng)于確定相應(yīng)分片的相應(yīng)分片爬取值滿足閾值分片值,更新高速緩存存儲器中的相應(yīng)分片的每個(gè)web頁面。在這些實(shí)現(xiàn)方式中,可以為每個(gè)相應(yīng)分片指派包括可用帶寬的部分的相應(yīng)分片帶寬。
4、在一些實(shí)現(xiàn)方式中,操作包括,對于多個(gè)web頁面中的每個(gè)相應(yīng)web頁面,估計(jì)相應(yīng)web頁面的相應(yīng)爬取值的更新時(shí)間,以及在所估計(jì)的更新時(shí)間更新相應(yīng)web頁面的相應(yīng)爬取值。操作還可以包括,對于多個(gè)web頁面中的每個(gè)相應(yīng)web頁面,在離散時(shí)間間隔的每個(gè)時(shí)間步更新用于相應(yīng)web頁面的相應(yīng)爬取值。
5、本公開的另一方面提供了一種用于爬取算法的系統(tǒng)。該系統(tǒng)包括數(shù)據(jù)處理硬件和與數(shù)據(jù)處理硬件通信的存儲器硬件。存儲器硬件存儲指令,該指令當(dāng)在數(shù)據(jù)處理硬件上被執(zhí)行時(shí)使數(shù)據(jù)處理硬件執(zhí)行操作。操作包括獲得供web爬取器爬取的多個(gè)web頁面。操作包括確定web爬取器的可用帶寬。操作還包括,對于多個(gè)web頁面中的每個(gè)相應(yīng)web頁面,基于可用帶寬來確定用于相應(yīng)web頁面的相應(yīng)爬取值,確定相應(yīng)web頁面的相應(yīng)爬取值滿足閾值,以及響應(yīng)于確定相應(yīng)web頁面的相應(yīng)爬取值滿足閾值,更新高速緩存存儲器中的相應(yīng)web頁面。
6、該方面可以包括以下任選特征中的一個(gè)或多個(gè)任選特征。在一些實(shí)現(xiàn)方式中,相應(yīng)爬取值基于從相應(yīng)web頁面接收的改變指示信號。在這些實(shí)現(xiàn)方式中,改變指示信號可以包括真陽性信號或假陽性信號。同樣在這些實(shí)現(xiàn)方式中,改變指示信號可以包括延遲的信號。
7、可用帶寬可以滿足帶寬閾值。此外,確定相應(yīng)爬取值可以包括使用機(jī)器學(xué)習(xí)引擎來確定相應(yīng)爬取值。在一些實(shí)現(xiàn)方式中,操作包括將多個(gè)web頁面劃分成多個(gè)分片。在這些實(shí)現(xiàn)方式中,操作包括,對于多個(gè)分片中的每個(gè)相應(yīng)分片,基于可用帶寬來確定相應(yīng)分片的相應(yīng)分片爬取值,確定相應(yīng)分片的相應(yīng)分片爬取值滿足閾值分片值,并且響應(yīng)于確定相應(yīng)分片的相應(yīng)分片爬取值滿足閾值分片值,更新高速緩存存儲器中的相應(yīng)分片的每個(gè)web頁面。在這些實(shí)現(xiàn)方式中,可以為每個(gè)相應(yīng)分片指派包括可用帶寬的部分的相應(yīng)分片帶寬。
8、在一些實(shí)現(xiàn)方式中,操作包括,對于多個(gè)web頁面中的每個(gè)相應(yīng)web頁面,估計(jì)相應(yīng)web頁面的相應(yīng)爬取值的更新時(shí)間,以及在所估計(jì)的更新時(shí)間更新相應(yīng)web頁面的相應(yīng)爬取值。操作還可以包括,對于多個(gè)web頁面中的每個(gè)相應(yīng)web頁面,在離散時(shí)間間隔的每個(gè)時(shí)間步更新用于相應(yīng)web頁面的相應(yīng)爬取值。
9、本公開的一個(gè)或多個(gè)實(shí)現(xiàn)方式的細(xì)節(jié)在附圖和下面的描述中闡述。根據(jù)說明書和附圖以及權(quán)利要求,其他方面、特征和優(yōu)點(diǎn)將顯而易見。
1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法(300),所述計(jì)算機(jī)實(shí)現(xiàn)的方法在由數(shù)據(jù)處理硬件(16,144)執(zhí)行時(shí)使所述數(shù)據(jù)處理硬件(16,144)執(zhí)行操作,其特征在于,所述操作包括:
2.根據(jù)權(quán)利要求1所述的方法(300),其特征在于,所述相應(yīng)爬取值(153)基于從所述相應(yīng)web頁面(152)接收的改變指示信號(172)。
3.根據(jù)權(quán)利要求2所述的方法(300),其特征在于,所述改變指示信號(172)包括真陽性信號或假陽性信號。
4.根據(jù)權(quán)利要求2或3所述的方法(300),其特征在于,所述改變指示信號(172)包括延遲的信號。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法(300),其特征在于,所述可用帶寬(155)滿足帶寬閾值。
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的方法(300),其特征在于,確定所述相應(yīng)爬取值(153)包括使用機(jī)器學(xué)習(xí)引擎(161)來確定所述相應(yīng)爬取值(153)。
7.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法(300),其特征在于,所述操作還包括:
8.根據(jù)權(quán)利要求7所述的方法(300),其特征在于,為每個(gè)相應(yīng)分片指派相應(yīng)分片帶寬,所述相應(yīng)分片帶寬包括所述可用帶寬(155)的一部分。
9.根據(jù)權(quán)利要求1至8中任一項(xiàng)所述的方法(300),其特征在于,所述操作還包括,對于所述多個(gè)web頁面(152)中的每個(gè)相應(yīng)web頁面(152):
10.根據(jù)權(quán)利要求1至9中任一項(xiàng)所述的方法(300),其特征在于,所述操作還包括,對于所述多個(gè)web頁面(152)中的每個(gè)相應(yīng)web頁面(152),在離散時(shí)間間隔的每個(gè)時(shí)間步更新用于所述相應(yīng)web頁面(152)的所述相應(yīng)爬取值(153)。
11.一種系統(tǒng)(100),其特征在于,包括:
12.根據(jù)權(quán)利要求11所述的系統(tǒng)(100),其特征在于,所述相應(yīng)爬取值(153)基于從所述相應(yīng)web頁面(152)接收的改變指示信號(172)。
13.根據(jù)權(quán)利要求12所述的系統(tǒng)(100),其特征在于,所述改變指示信號(172)包括真陽性信號或假陽性信號。
14.根據(jù)權(quán)利要求12或13所述的系統(tǒng)(100),其特征在于,所述改變指示信號(172)包括延遲的信號。
15.根據(jù)權(quán)利要求11至14中任一項(xiàng)所述的系統(tǒng)(100),其特征在于,所述可用帶寬(155)滿足帶寬閾值。
16.根據(jù)權(quán)利要求11至15中任一項(xiàng)所述的系統(tǒng)(100),其特征在于,確定所述相應(yīng)爬取值(153)包括使用機(jī)器學(xué)習(xí)引擎(161)來確定所述相應(yīng)爬取值(153)。
17.根據(jù)權(quán)利要求11至16中任一項(xiàng)所述的系統(tǒng)(100),其特征在于,所述操作還包括:
18.根據(jù)權(quán)利要求17所述的系統(tǒng)(100),其特征在于,為每個(gè)相應(yīng)分片指派相應(yīng)分片帶寬,所述相應(yīng)分片帶寬包括所述可用帶寬(155)的一部分。
19.根據(jù)權(quán)利要求11至18中任一項(xiàng)所述的系統(tǒng)(100),其特征在于,所述操作還包括,對于所述多個(gè)web頁面(152)中的每個(gè)相應(yīng)web頁面(152):
20.根據(jù)權(quán)利要求11至19中任一項(xiàng)所述的系統(tǒng)(100),其特征在于,所述操作還包括,對于所述多個(gè)web頁面(152)中的每個(gè)相應(yīng)web頁面(152),在離散時(shí)間間隔的每個(gè)時(shí)間步更新用于所述相應(yīng)web頁面(152)的所述相應(yīng)爬取值(153)。