网站日志其实也就是我们的空间日志,记录着网站运营情况和被访问记录,通过网站日志我们可以了解每天各种蜘蛛抓取情况和搜索引擎蜘蛛访问了我们的哪些页面。所以,正确分析网站日志是每个站长朋友必需具备的技能之一。
第一:如何查看网站日志
查看日志之前首先是需要将网站日志下载下来。现在一般虚拟空间商都会提供“访问日志下载”这一功能,之前在如何选择好的虚拟空间的时候就提到过虚拟空间最好带有日志下载功能方便我们站长查看也省得诸多麻烦。
这里我先复制下本人一段网站空间日志代码给大家看下。
2014-05-01 09:05:25 GET /default.jsp - - 220.181.108.180 HTTP/1.1 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) - 200 34499 421
2014-05-01 09:05:25 GET /default.jsp,这个大家一看就应该明白,意思是Baiduspider这个名称的用户也就是百度蜘蛛在2014-05-01 09:05:25 这个时间爬行了我们网站的主页也就是default.asp页面,这个get就是搜索引擎的一个抓取动作。
220.181.108.180,这个代表的是来访用户的ip地址,在这条日志中这个ip地址就代表着百度蜘蛛的ip来路。相信有过建站经验的朋友对这个ip应该都是极为熟悉的了。
HTTP/1.1这个代码代表的是一个超文本传输协议,接触网络的人应该都知道网络上信息的传递是需要通过一定的网络协议的,这个HTTP/1.1就是众多协议的一种,大家不必对这太过关注,当然如果感兴趣也可以仔细了解。
Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html)这段代码Mozilla/5.0代表的意思就是用户使用的浏览器是Mozilla/5.0,而括号里面的信息新站日志中如果出现了应该能让站长们兴奋一会儿,它就是百度蜘蛛了,可以说是搞百度优化站长们的衣食父母啊,对它是又爱又恨啊。
200 34499 421这段代码中“200”代表的是蜘蛛爬行返回的状态码,200代表的是爬行成功的意思,34499代表的是爬行网页的大小。
第二:分析网站日志的时候应该注意哪些事项
1、用户的IP地址。
我们可以根据用户的IP地址来判断用户的地理位置,从而统计出目到访用户的地理区域。尤其是企业做了竞价推广以后,如果发展同一个IP一天之内多次访问,那可能就是恶意点击。
2、访问次数和停留时间。
通过分析用户的访问次数和停留时间,我们可以判断用户的购买意向强度和对某些内容的关注度,从而帮助企业有针对性的加强客户联系和进行内容优化建设。
3、访问日期和时间。
根据访问日期和时间,我们可以确定好网站在什么时间段访问率比较高,从而有针对性的对其原因和优势进行分析,然后采取相关措施利用那个时段进行集中营销等等。
4、页面被抓取量和次数。
通过网站日志分析网站页面的被抓取量和次数,以此判断搜索引擎蜘蛛的活跃力度、抓取深度以及亲和程度等等,从而使网站优化更有针对性,从而让搜索引擎蜘蛛抓取和收录更多的网站资源。
5、访问页面的返回码。
不论是搜索引擎蜘蛛还是访问用户,根据访问页面的HTTP状态码,我们都可以追溯和判断网站页面是否正常,以便及时进行页面调整等等。
6、访客来路。
知道用户通过什么渠道访问到你的网站很重要。这样企业就完全可以根据相关来源渠道进行优化建设,从而大大增加自身的客源优势。
第三:网站日志返回的状态码代表的含义大全
1、2**的代码代表的是正常
200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
2、3**的代码代表的是重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
3、4xx代码代表的是客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
4、5xx的代码代表服务器中出现的错误
500 内部错误 — 因为意外情况,服务器不能完成请求。
501 未执行 — 服务器不支持请求的工具。
502 错误网关 — 服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护,服务器无法处理