解读百度标准死链官方文档

死链的应对建议:

协议死链:百度首推404,即未找到文件,请尽量不要用其他状态码。

内容死链:在无价值信息的网页上,网站应该在明确的为止给予提示文字。需要强调的是:站长在申请取消闭站保护的时候,百度除了检测站内协议死链外,还会同时检查内容死链的比例和数量。即使您不使用闭站保护功能,百度也提倡大家踊跃提交内容死链,以保证站点评级的稳定。

跳转死链:将无阅读价值的页面统一跳转到某一个页面,如前一级目录面、首页等等,跳转前后的两个网页主体内容不同,不存在可替代的关系。





  注:合理的返回码

百度爬虫在进行抓取和处理时,是根据http协议规范来设置相应的逻辑的,所以请大家也尽量参考http协议中关于返回码的含义的定义来进行设置。

百度spider对常用的http返回码的处理逻辑是这样的:

   404

    404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取。

   503

    503返回码的含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度spider不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。

   403

    403返回码的含义是“Forbidden”,百度会认为网页当前禁止访问。对于这种情况,如果是新发现的url,百度spider暂不会抓取,短期内会再次检查;如果是百度已收录url,当前也不会直接删除,短期内同样会再访问。届时如果网页允许访问,则正常抓取;如果仍不允许访问,短期内还会反复访问几次。但是如果网页长期返回403,百度也会认为是失效链接,从搜索结果中删除。  

   301

    301返回码的含义是“Moved Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但我还是推荐大家这么做。




知识延伸:

死链出现的原因:

         1、动态链接在数据库不再支持的条件下,变成死链接。

  2、某个文件或网页移动了位置,导致指向它的链接变成死链接。

  3、网页内容更新并换成其他的链接,原来的链接变成死链接。

  4、网站服务器设置错误

  5、网站还没有完全做好,就上传到服务器上去了,这样也很多死链的。

  6、某文件夹名称修改,路径错误链接变成死链。



死链的影响:

      1、死链接会损失踪P值。P值是经由过程链接来传递的。网站中存在死链接无疑会造成网站内部P值的流失。

      2、损失搜索引擎排名。

      3、损失用户体验。



死链删除

         百度站长平台支持通过sitemap向百度提交网站的死链列表。网站死链过多,不仅影响用户访问体验,也影响百度对网站质量的判断。通过死链删除的接口可以让百度更快更全面的发现网站死链,从而进行有效删除。

   注:提交需要删除的网址后,需要做如下处理,才能被百度有效删除:

   1、使用robots.txt阻止其被抓取;

   2、或者返回404状态码表示当前页面不存在。



如何避免死链的产生:

    1、网站上传前,操作网页建造工具搜检链接情形,以将无效链接扼杀在上传前

   2、提高网站经管人员的意识,按期使用网站死链检测对象,来查询网站是否存在死链接

   3、解决网站轨范错误

   4、制作提示死链的页面。



已发布

分类

来自

标签:

评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注