當前位置↟•│◕:重慶網站最佳化 > SEO經驗 >

瞭解搜尋引擎抓取機制解決網站收錄問題

  收錄是指網頁被搜尋引擎抓取到,然後放到搜尋引擎的庫裡,等到人們搜尋相關詞彙的時候,可以在搜尋結果頁展示列表看到已經收錄的頁面及頁面資訊↟↟☁。我們所說的“網頁被收錄”即能在搜尋結果頁看到相關的頁面↟↟☁。反之,“網頁沒有被收錄”問題就複雜一些,因為在搜尋結果頁沒有看到對應的頁面,並不意味著網頁就沒在搜尋引擎的庫裡,或者說就沒有被收錄,有可能是網頁針對當前的搜尋詞彙排名不好,在760個記錄之外↟↟☁。

瞭解搜尋引擎抓取機制解決網站收錄問題

  因此沒有得到展示收錄涉及網頁被搜尋引擎蜘蛛抓取,然後被編入搜尋引擎的索引庫,並在前端被使用者搜尋到這一系列的過程↟↟☁。對SEO人員或者希望對自己網站進行最佳化的非專業SE○人員來說,瞭解頁面是如何被搜尋引擎收錄的,瞭解搜尋引擎的收錄原理,都是極有好處的,能幫助你在進行網站sEO的時候儘量遵循收錄的規律,提高網站被收錄的比例↟↟☁。

  1₪☁▩、搜尋引擎蜘蛛的工作原理

  收錄的第一個環節就是抓取↟↟☁。抓取的過程是搜尋引擎應用程式去抓取網站的網頁,這裡負責搜尋引擎抓取網頁職能的程式俗稱蜘蛛( Spider),蜘蛛是一個形象的說法,因為網際網路就是一張巨大的蜘蛛網,搜尋引擎的程式透過網路不斷地進行爬行和探索↟↟☁。每個網際網路公司都有自己的抓取蜘蛛,比如百度蜘蛛( Baiduspider)₪☁▩、谷歌蜘蛛₪☁▩、搜狗蜘蛛等↟↟☁。

  蜘蛛透過網站提交的 Sitemap(網頁地圖)或者在網際網路其他地方留下的頁面URL資訊,爬行到網站對應頁面,然後沿著網站頁面其他連結一層層往下爬行,發現更多的頁面↟↟☁。蜘蛛抓取網頁是收錄頁面工作的上游,透過蜘蛛對網頁的抓取發現更多頁面,同時知道哪些頁面已經有了更新,從而實現對網際網路頁面的抓取和持續更新↟↟☁。

  關於蜘蛛抓取系統的工作原理,可以參考百度蜘蛛抓取的說明↟↟☁。簡而言之,蜘蛛抓取系統包括連結儲存系統₪☁▩、連結選取系統₪☁▩、DNs解析服務系統₪☁▩、抓取排程系統₪☁▩、網頁分析系統₪☁▩、連結提取系統₪☁▩、連結分析系統₪☁▩、網頁儲存系統↟↟☁。 Baiduspider透過這種系統的通力合作完成對網際網路頁面的抓取工作↟↟☁。

  2₪☁▩、應對蜘蛛機取基本策略

  在蜘蛛實際抓取網頁的過程中,因為網頁內容的複雜性(文字₪☁▩、Fash₪☁▩、影片等)和技術實現的多樣性(純靜態₪☁▩、動態載入等),為了更高效地利用蛛蛛資源,搜尋引擎公司會置頂不同的抓取策略,作為SEO人員,可以參考搜素引擎公司對抓取策略的描述,採用最大化的SEO方法↟↟☁。

  作為國內最大的搜尋引擎公司,百度在它的官方文件中是如下這樣描述抓取策略的↟↟☁。網際網路資源具有庇大的數量級,這就要求抓取系統儘可能高效地利用頻寬,在有限的硬體和頻寬資源下儘可能多地抓取到有價值的資源↟↟☁。這就造成了另—個問題,耗費被抓取網站的頻寬造成訪問壓力如果程度過大,將直接影響被抓取網站的正常使用者訪問行為↟↟☁。

  因此在抓取過程中要進行一定的抓取壓力控制,實現既不影響網站的正常使用者訪問,又能儘量多地抓取到有價值資源的目標↟↟☁。通常情況下,採用的最基本的方法是基於|P的壓力控制↟↟☁。這是因為如果基於域名,可能存在一個域名對多個iP(很多大網站)或多個域名對應同一個P(小網站共享iP)的問題↟↟☁。實際工作中,往往根據iP及域名的多種條件進行壓力控制↟↟☁。同時,站長平臺也推出了壓力反饋工具,站長可以人工調配對自己網站的抓取壓力,這時 Baiduspider將優先按照站長的要求進行抓取壓力控制.

  對同一個站點的抓取速度控制一般分為兩類:其一,一段時間內的抓取頻率;其二,一段時間內的抓取流量↟↟☁。同一站點不同的時間抓取速度也會不同,例如,夜深人靜的時候抓取的可能就會快一些↟↟☁。也視具體站點型別而定,主要思想是錯開正常使用者訪問高峰,不斷地調整↟↟☁。對於不同站點,也需要不同的抓取速度↟↟☁。

  上面的描述很簡潔,但是從這個描述裡面,我們可以得到啟發蜘蛛抓取頁面是有壓力控制的,對於特別大型的網站來說,不可能指望蜘蛛爬行到個網站後,會一次性抓取到所有的網站,因此,作為SEO人員來說,儘量減少蜘蛛的壓力,對網站的網頁收錄是有好處的↟↟☁。一般來說,減輕蜘蛛壓力有以下兩種方法↟↟☁。方法—:採用№ follow(反垃圾連結的標籤)的策略,將蜘蛛引導到最有價值的頁面↟↟☁。 nofollow標籤用來告訴蜘蛛,如果遇到帶著此他更加有用的頁面↟↟☁。

  方法二:在 Sitemap中定義不同頁面的權重和更新頻率,就是在網站的 Sitemap檔案中,定義好每個連結的權重和更新的頻率,這樣蜘蛛在爬行到這些連結和頁面的時候,會識別哪些頁面比較重要,可以重點抓取,哪些頁面更新比較頻繁,需要蜘蛛分配更多的注意力↟↟☁。

文章來源↟•│◕:重慶SEO◕✘·,家專業從事重慶網站最佳化◕✘·,重慶建網站◕✘·,百度關鍵詞排名的公司◕✘·,有相關需要請聯絡QQ↟•│◕:470891619>
野花www在线观看免费播放,国产精品无码无卡在线播放,免费人成在线视频无码软件,乱人伦视频中文字幕