資訊中心 / NEWS

新聞中心精辟網(wǎng)文網(wǎng)絡營銷建站知識網(wǎng)站建設信息化 SEO網(wǎng)絡推廣合作客戶與伙伴做網(wǎng)站解決方案網(wǎng)站維護與安全

地址：長沙市韶山南路248號南園503
室(瀟湘晨報旁)
電話：0731-88571521
手機：13637482004
Q Q：44377655 522392221
網(wǎng)址：
郵箱：522392221@qq.com

網(wǎng)絡營銷

長沙做網(wǎng)站聯(lián)系電話：0731-88571521 13637482004

搜索引擎抓取和收錄頁面的過程

信息來源：發(fā)布時間：2017-5-15 瀏覽：

1、抓取

　　網(wǎng)站的頁面有沒有被搜索引擎收錄，首先要看一下網(wǎng)站的蜘蛛訪問日志，看一下蜘蛛有沒有來，如果蜘蛛都沒有抓取，那是不可能被收錄的。蜘蛛訪問網(wǎng)站的日志可以從網(wǎng)站的IIS日志里面看到，如果搜索引擎蜘蛛沒有來呢?那么就主動向搜索引擎提交，搜索引擎會派出蜘蛛來抓取網(wǎng)站，這樣網(wǎng)站才有可能被盡快收錄。

　　如果你不會分析網(wǎng)站的日志也沒有關系，這里推薦愛站SEO工具包，將網(wǎng)站的日志導入到這個工具之后，就能看到日志的分析，你能從中得到很到信息。

　　廣度優(yōu)先抓�。簭V度優(yōu)先抓取是按照網(wǎng)站的樹形結(jié)構(gòu)，對一個的層進行的抓取，如果此層沒有抓取完成，蜘蛛不會進行下一層的搜索。(關于網(wǎng)站的樹形結(jié)構(gòu)，會在后續(xù)的日志中進行說明，在沒有發(fā)布文章之后，在此會添加連接)

　　深度優(yōu)先抓取：深度優(yōu)先抓取是按照網(wǎng)站的樹形結(jié)構(gòu)。按照一個連接，一直抓取下去，知道這一個連接沒有再往下的鏈接為止，深度優(yōu)先抓取又叫縱向抓取。

　　(注意：廣度優(yōu)先抓取，適用于所有情況下的搜索，但是深度優(yōu)先抓取不一定能適用于所有情況。因為一個有解的問題樹可能含有無窮分枝，深度優(yōu)先抓取如果誤入無窮分枝(即深度無限)，則不可能找到目標結(jié)束點。所以，深度優(yōu)先抓取策略很多時候是不會被使用的，廣度優(yōu)先的抓取更加的保險。)

　　廣度優(yōu)先抓取適用范圍：在未知樹深度情況下，用這種算法很保險和安全。在樹體系相對小不龐大的時候，廣度優(yōu)先也會更好些。

　　深度優(yōu)先抓取適用范圍：剛才說了深度優(yōu)先抓取有自己的缺陷，但是并不代表深度優(yōu)先抓取沒有自己的價值。在樹型結(jié)構(gòu)深度已知情況下，并且樹體系相當龐大時，深度優(yōu)先搜索往往會比廣度優(yōu)先搜索優(yōu)秀。

　　2、過濾

　　網(wǎng)站的頁面被抓取了并不代表一定會被收錄。蜘蛛來抓取了之后，會把數(shù)據(jù)帶回去，放到臨時的數(shù)據(jù)庫中，再進行過濾，過濾掉一些垃圾的內(nèi)容或者是低質(zhì)量的內(nèi)容。

　　你頁面的信息如果是采集，在互聯(lián)網(wǎng)上有大量的相同信息，搜索引擎就很有可能不為你的網(wǎng)頁建立索引。有時候我們自己寫的文章也不會被收錄，因為原創(chuàng)的不一定就是高質(zhì)量的。關于文章質(zhì)量的高低，我會在以后的文章中單獨拿出一篇來和大家詳細討論。

　　過濾這一過程就是一個去掉糟粕的過程，如果你的網(wǎng)站的頁面順利通過了過濾這一過程，說明頁面的內(nèi)容達到了搜索引擎設定的標準，頁面會就會進入建立索引和輸出結(jié)果這一步。

　　3、建立索引與輸出結(jié)果

　　這里，我們把建立索引和輸出結(jié)果合在一起進行說明。

　　通過一系列的過程之后，符合收錄的頁面之后會建立索引，建立索引之后就是輸出結(jié)果，也就是我們在搜索關鍵詞后，搜索引擎展示給我們的結(jié)果。

　　當用戶在搜索關鍵詞時搜索引擎就會輸出結(jié)果，輸出的結(jié)果是有順序排列的。這些結(jié)果排序是根據(jù)一系列復雜的算法來排定的。比如：頁面的外鏈，頁面與關鍵詞的匹配度，頁面的多媒體屬性等。

　　在輸出的結(jié)果中，還有一些結(jié)果是通過抓取之后直接可以輸出的，沒有經(jīng)過中間復雜的過濾和建立索引等過程。什么樣的內(nèi)容和什么樣的情況下才會發(fā)生的呢?那就是具有很強的時效性的內(nèi)容，比如新聞類的。比如今天發(fā)生了一件特大事件，各大門戶和新聞源快速發(fā)出了關于事件的新聞，搜索引擎會迅速對重大新聞事件作出反應，快速收錄相關的內(nèi)容。

　　百度對于新聞的抓取速度是很快的，對重大事件的反應也比較及時。但是這里還有一個問題就是，這些發(fā)布的新聞如果有低質(zhì)量的頁面會怎么辦?搜索引擎會在輸出結(jié)果之后，仍然對這一部分新聞內(nèi)容進行過濾，如果頁面內(nèi)容與新聞標題不符，質(zhì)量過低，那么低質(zhì)量的頁面還是會被搜索引擎過濾掉。

　　在輸出結(jié)果的時候，搜索引擎會多多少少會對搜索結(jié)果進行人工干預，其中以百度為最嚴重，在百度很多關鍵詞的自然搜索結(jié)果中被加入了百度太多自家的產(chǎn)品，而且很多是沒有考慮用戶體驗的，這也是百度被大家詬病的原因之一，有興趣的朋友可以百度一個詞看一下搜索結(jié)果，是不是百度自家的產(chǎn)品占據(jù)了太多的首頁位置。

相關熱點文章

777婷婷天堂综合区色吧,激情图区视频区,日本偷拍资源站,国产精品综合久久九

搜索引擎抓取和收錄頁面的過程