2010年12月10日 星期五

Google的網站訊息採集工具

GOOGLE搜索引擎剛建立之初,就擁有這一個非常強大的的服務器,其每天放出大量的蜘蛛,我們稱為1號蜘蛛,其抓取量抓取速度是非常的快, 對其整個互聯網每天進行信息進行的採集,可見服務器的速度是多少快,其實最主要的是後期GOOGLE將服務器延伸到了很多城市,所以現在你能發現GOOGLE的運算速率是超前的快.

服務器將採集的信息分類,整理.到龐大的數據庫.其中有個數據庫都是用來存網站域名的.域名只要被搜索引擎索引到,將自動存入此數據庫.此數據庫是1號蜘蛛的核心.其內部分為10PR各等級的小數據庫,雖說小數據庫,但也是大的可怕.

10個等級的數據庫其周期也不同.基本上以一個PR=4的網站來講,1號蜘蛛爬行的概率也在7天一次.所以基本你也會發現收錄有大的幅度也是在7天內的某一天.細心的站長會發現其實有時候7天還是蠻準的,但只針對PR=4.越是PR高其周期越是短,越是PR低週期越長,

當然說到這很多站長有這樣的疑惑.會覺得蜘蛛有時天天收錄他的站,這裡對其收錄的也就是接下來要說的2號蜘蛛,2號蜘蛛往往是在1號蜘蛛爬行過程中放出去的,主要針對於被1號蜘蛛爬過的網站的外部鏈接.

PS:既然都說是2號蜘蛛肯定其抓取力度要比1號小很多. SEO

當然不只是有2,還有3號蜘蛛,所謂3號也就,A1號蜘蛛爬行到B,B站的2號蜘蛛爬行到C,目前GOOGLE為了限制其無限的循環對於蜘蛛只分為這三個等級.並對其等級的抓取率有個很明確的標準,而且2號與3號蜘蛛有個抓取特點基本以時間的先後順序進行抓取.

比方講:A網站 被1號蜘蛛爬行後的一篇文章最後時間為2008-6-1,那當A網站被從別的網站過來的2號蜘蛛給爬行,首先有可能會對其收錄的是,最近發表的幾篇文章如: 2008-5-312008-5-30等文章將會進行第2,3次的訪問之後再爬行2008-6-1以後的信息.如果你網站沒有任何更新,它將對其近一個月內的更改內容進行2次爬行.

如果外部來的2號與3號蜘蛛越多,同一篇文章有可能會被爬上好幾次.以下為GOOGLE提供的官方數據

1號蜘蛛
基本抓取率在5%~10%

基於PR=0 沒有任何導入鏈接與提交時有可能被抓取的周期在6個月~12個月不等

基於PR=1 沒有任何導入鏈接與提交時有可能每次被抓取的周期在4個月~8個月不等

基於PR=2 沒有任何導入鏈接與提交時有可能被抓取的周期在2個月~4個月不等

基於PR=3 沒有任何導入鏈接與提交時有可能被抓取的周期在1個月~2個月不等

基於PR=4 沒有任何導入鏈接與提交時有可能被抓區的周期在1~1個月不等

當然沒有任何導入鏈接的網站無法做到PR=4

最高也只有PR=3

上述此數據只是GOOGLE官方提供的一個基數.

意思也就是1號蜘蛛主動爬取你網站的周期數.

對於2號或者3號蛛爬取你的網站,也就根據你的導入鏈接而定.

所以你會發現你的網站有時天天在被更新.

2號蜘蛛
基本抓取率是2.5%~5%<基於1號蜘蛛爬行後的數據記錄進行再次採集,對於最後次被採集日期的前後進行再次訪問>

3號蜘蛛
基本抓取率為1.25%~2.5%<基於1號蜘蛛與2號蜘蛛爬行後的數據記錄進行再次採集,對於最後次被採集日期的前後進行再次訪問>

GOOGLE目前蜘蛛的等級分為三種

當然蜘蛛有不同的蜘蛛

這裡單單隻的是網頁蜘蛛.因為我只對這個感興趣.


沒有留言:

張貼留言