1、記錄搜索引擎蜘蛛的不重復抓取量
上一步我們把蜘蛛的抓取量數(shù)據(jù)給分析出來了,然后我們要進行去重,也就是搜索引擎的唯一不重復抓取量,其實對于收錄來說,許多頁面只要抓取一次就可以了,可是在實際操作的過程當中,許多頁面都是被重復抓取的,谷歌的技術比較先進一些,重復抓取率也許會低一些,可是百度等搜索引擎,重復抓取率卻非常高,你通過日志分析就可以看出來了,一天如果抓取量上百萬,可能好幾萬次都是抓取首頁的,所以許多數(shù)據(jù)你一定要去分析的,當你分析了后,你才會知道問題的嚴重性。
2、每個目錄、每個搜索引擎的抓取量
上邊兩步把總體抓取量、不重復抓取量記錄下來了,然后我們要分析出每個搜索引擎對每一個目錄的抓取情況是怎么樣的,這樣利于進行分塊優(yōu)化,例如當你網(wǎng)站流量上升時,你可以知道是哪個目錄的流量上升了,然后再往下推,看看是哪個目錄的抓取量上升了,哪個目錄的抓取量下降了,為什么下降,都可以進行分析的,然后在網(wǎng)站中進行適當?shù)逆溄咏Y構調(diào)整,例如使用nofollow標簽等。
3、每個搜索引擎的總體抓取量(以及趨勢)
在日志文件中,明確的記錄了每個搜索引擎的抓取量,例如百度、谷歌、搜狗等搜索引擎的抓取記錄,我們都可以進行記錄,使用DOS命令或者Linux命令都可以去實現(xiàn)的,搜索引擎的收錄是由抓取量以及文章質(zhì)量來決定的,當文章質(zhì)量不變的情況下,蜘蛛抓取量越大,那么收錄的就會越多,我們在進行日志分析 時候,一定要清楚的知道蜘蛛每天的抓取量到底是一個什么情況,而且每天都要記錄,也許絕對值說明不了什么,我們可以去看它的趨勢,當某一天抓取量的趨勢在下降時,我們就要去找原因了。
4、統(tǒng)計搜索引擎蜘蛛來的次數(shù)、來的時間
我們可以使用一些日志分析工具,設定一個標準,例如光年日志分析工具,可以統(tǒng)計出每個搜索引擎蜘蛛每天來的次數(shù),一天一共在我們網(wǎng)站停留了多久,有沒有IP蜘蛛一天24小時都在我們網(wǎng)站不停的抓取,這樣的蜘蛛越多越好,往往是你網(wǎng)站權重提升的表現(xiàn)。這樣的數(shù)據(jù)可以每天都記錄下來,在一定的時間段內(nèi),進行對比分析,看看停留的時間是不是增加了,來的次數(shù)是不是增多了,這樣可以判斷出網(wǎng)站權重是上升還是下降。
5、統(tǒng)計搜索引擎抓取的狀態(tài)碼
當搜索引擎抓取了你的頁面后,不但抓取了你的內(nèi)容,而且還會有一個抓取返回碼的,這些返回碼我們要記錄下來,特別是一些類似301、404、500等這些狀態(tài)碼,我們從這些狀態(tài)碼中我們找出網(wǎng)站的一些潛在的問題,例如為什么會出現(xiàn)很多404頁面,是程序原因,還是搜索引擎在抓取外鏈的時候提取錯誤,其實我們可以在谷歌管理員工具中看到這些數(shù)據(jù)的,里邊還會提示你的錯誤的404頁面出現(xiàn)在哪里,對于一些301狀態(tài)碼我們也要注意了,看下這些301是不是按照我們所希望的那樣跳轉的,網(wǎng)站中要盡量的少用跳轉,頁面在跳轉的時候,往往會延長頁面的加載時間,最常見的301可能就是網(wǎng)頁URL不帶"/"的跳轉到帶“/”的情況了,我們在網(wǎng)站中,要盡量的避免出現(xiàn)這樣的情況。