網站頻繁出現304狀態碼及抓取蜘蛛次數較少的原因

閱讀 ?·? 發布日期 2021-08-11 15:50 ?·? admin

經常會碰到站長們訴苦蜘蛛抓取回來碼老是304狀況,且抓取的次數越來越少的問題。查找引擎為了本身的用戶體會,會想盡辦法來進步檢索調用率、準確性、新鮮度,這將導致引擎不得不把首要的精力放在具有優質內容源的網站上。惟其如此,查找成果的質量才干愈加契合查找者的體會。

 
    由此咱們聯想到:查找引擎爬蟲會愈加喜愛內容源更新頻頻的網站。經過特定時間內對網站抓取回來的狀況碼來調理對該網站的抓取頻頻。若網站在必定時間內一向處于[304:沒有改變]的狀況,那么引擎爬蟲可能會降低對網站的抓取次數。相反,若網站改變的頻率十分之快,每次抓取都能獲取新版本,那么日積月累,爬蟲的回訪率也會進步。
 
    無論是抓取少仍是304,這都是一種現象,并不是問題的原因,假設網站回來的都是200,就能達到進步排名帶來流量的意圖么?相比之下更應該思考發生304的原因是什么?改304對網站方針能夠有什么樣的作用?不能忽視整體的方針而側重過程的細節,為了200而去處理304。
 
    304狀況是怎么發生?
 
    服務器為了進步網站拜訪速度,對之前拜訪的部分頁面制定緩存機制,當客戶端在此對這些頁面進行懇求,服務器會根據緩存內容判別頁面與之前是否相同,若相同便直接回來304,此刻客戶端調用緩存內容,不用進行二次下載,能夠說304從某種角度起到了削減服務器帶寬并進步蜘蛛匍匐效率的作用。
 
    304狀況發生原因?
 
    1、頁面更新周期長或不更新
 
    2、純靜態頁面或強制生成靜態html
 
    304狀況處理思路?
 
    1、先對發生304頁面進行細分,到底是哪類頁面回來了304?這些頁面是否應該回來304?
 
    2、這些頁面生成的方法是怎樣的?是否有更新機制?更新機制是否契合蜘蛛對網站的抓取頻率?
 
    3、頁面更新區域的方位是否合理?是否坐落該頁面首要內容的承載區域?
 
    咱們論壇的 @李亮堂 同學也對此情況做了剖析:
 
    304狀況碼呈現過多會造成以下問題:
 
    1、網站快照中止
 
    2、錄入削減
 
    3、權重下降
 
    那么怎么削減304回來碼呢?
 
    據我所知,首要內容更新方面要投合百度蜘蛛,剖析日志,把蜘蛛到訪的時間記錄下來,能夠大致得出蜘蛛到訪的頻率,然后以此為根據,更新文章:必定是原創+轉載,不能純收集。轉載也需求新的優質資源。讓蜘蛛這個點過來能有吃的。然后回來更多 200 正常碼。
 
    其次呢,增加個互動版塊,現在大網站基本已經都做了這方面,比方談論、留言等,大網站更新起來改變可能會很小,但是有了這些互動,用戶會在上面發些內容,網站會有許多新的東西。如seowhy,就會把新回復以及問題放在重要方位。
 
    結束
 
    本期咱們側重評論了關于頻頻回來 304 狀況以及抓取次數較少的問題,意圖是為了讓網站充沛的被抓取。除了以上達人剖析的原因外,小編覺得引擎蜘蛛相同也會參閱網站歸納權重,對于權重高的網站抓取頻率會很頻頻,比方 Google 可能會參閱 PR 值來決議網站的抓取頻率。