網(wǎng)站制作中必須了解搜索引擎抓取收錄的基本原理

2019-11-16

次

在網(wǎng)站制作前我們要知道什么是搜索引擎蜘蛛
搜索引擎蜘蛛，是一種按照一定的規(guī)則，自動(dòng)地抓取互聯(lián)網(wǎng)信息的程序或者腳本。由于互聯(lián)網(wǎng)具有四通八達(dá)的“拓補(bǔ)結(jié)構(gòu)”十分類似蜘蛛網(wǎng)，再加上搜索引擎爬蟲無休止的在互聯(lián)網(wǎng)上“爬行”，因此人家形象的將搜索引擎爬蟲稱之為蜘蛛?；ヂ?lián)網(wǎng)儲(chǔ)備了豐富的資源和數(shù)據(jù)，那么這些資源數(shù)據(jù)是怎么來的呢?眾所周知，搜索引擎不會(huì)自己產(chǎn)生內(nèi)容，借助蜘蛛不間斷的從千千萬萬的網(wǎng)站上面“搜集”網(wǎng)頁數(shù)據(jù)來“填充”自有的頁面數(shù)據(jù)庫。這也就是為什么我們使用搜索引擎檢索數(shù)據(jù)時(shí)，能夠獲得大量的匹配資源。

搜索引擎蜘蛛的工作流程如下：
①搜索引擎安排蜘蛛到互聯(lián)網(wǎng)上的網(wǎng)站去抓取網(wǎng)頁數(shù)據(jù)，然后將抓取的數(shù)據(jù)帶回搜索引擎的原始頁面數(shù)據(jù)庫中。蜘蛛抓取頁面數(shù)據(jù)的過程是無限循環(huán)的，只有這樣我們搜索出來的結(jié)果才是不斷更新的。

　?、谠柬撁鏀?shù)據(jù)庫中的數(shù)據(jù)并不是最終的結(jié)果，只是相當(dāng)于過了面試的“初試”，搜索引擎會(huì)將這些數(shù)據(jù)進(jìn)行“二次處理”，這個(gè)過程中會(huì)有兩個(gè)處理結(jié)果：

　　(1)對(duì)那些抄襲、采集或者復(fù)制的重復(fù)內(nèi)容，不符合搜索引擎規(guī)則及不滿足用戶體驗(yàn)的垃圾頁面從原始頁面數(shù)據(jù)庫中清除。

　　(2)將符合搜索引擎規(guī)則的高質(zhì)量頁面添加到索引數(shù)據(jù)庫中，等待進(jìn)一步的分類、整理等工作。

　?、鬯阉饕鎸?duì)索引數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分類、整理、計(jì)算鏈接關(guān)系、特殊文件處理等過程，將符合規(guī)則的網(wǎng)頁展示在搜索引擎顯示區(qū)，以供用戶使用和查看。