死链的应对建议:
协议死链:百度首推404,即未找到文件,请尽量不要用其他状态码。
内容死链:在无价值信息的网页上,网站应该在明确的为止给予提示文字。需要强调的是:站长在申请取消闭站保护的时候,百度除了检测站内协议死链外,还会同时检查内容死链的比例和数量。即使您不使用闭站保护功能,百度也提倡大家踊跃提交内容死链,以保证站点评级的稳定。
跳转死链:将无阅读价值的页面统一跳转到某一个页面,如前一级目录面、首页等等,跳转前后的两个网页主体内容不同,不存在可替代的关系。
注:合理的返回码
百度爬虫在进行抓取和处理时,是根据http协议规范来设置相应的逻辑的,所以请大家也尽量参考http协议中关于返回码的含义的定义来进行设置。
百度spider对常用的http返回码的处理逻辑是这样的:
• 404
404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取。
• 503
503返回码的含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度spider不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。
• 403
403返回码的含义是“Forbidden”,百度会认为网页当前禁止访问。对于这种情况,如果是新发现的url,百度spider暂不会抓取,短期内会再次检查;如果是百度已收录url,当前也不会直接删除,短期内同样会再访问。届时如果网页允许访问,则正常抓取;如果仍不允许访问,短期内还会反复访问几次。但是如果网页长期返回403,百度也会认为是失效链接,从搜索结果中删除。
• 301
301返回码的含义是“Moved Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但我还是推荐大家这么做。
知识延伸:
死链出现的原因:
1、动态链接在数据库不再支持的条件下,变成死链接。
2、某个文件或网页移动了位置,导致指向它的链接变成死链接。
3、网页内容更新并换成其他的链接,原来的链接变成死链接。
4、网站服务器设置错误
5、网站还没有完全做好,就上传到服务器上去了,这样也很多死链的。
6、某文件夹名称修改,路径错误链接变成死链。
死链的影响:
1、死链接会损失踪P值。P值是经由过程链接来传递的。网站中存在死链接无疑会造成网站内部P值的流失。
2、损失搜索引擎排名。
3、损失用户体验。
死链删除:
百度站长平台支持通过sitemap向百度提交网站的死链列表。网站死链过多,不仅影响用户访问体验,也影响百度对网站质量的判断。通过死链删除的接口可以让百度更快更全面的发现网站死链,从而进行有效删除。
注:提交需要删除的网址后,需要做如下处理,才能被百度有效删除:
1、使用robots.txt阻止其被抓取;
2、或者返回404状态码表示当前页面不存在。
如何避免死链的产生:
1、网站上传前,操作网页建造工具搜检链接情形,以将无效链接扼杀在上传前
2、提高网站经管人员的意识,按期使用网站死链检测对象,来查询网站是否存在死链接
3、解决网站轨范错误
4、制作提示死链的页面。