一些做网站的站长或是一些SEOer来说,网站日志这个名字,一定是都听说过 吧!都知道会看、能看懂网站日志,是一个seoer高手的标志,更是一个合格的站长的必备技能,网站日志里记录了,所有搜索引擎的爬行与抓取记录,是我们 站长与seo人员,参考网站是否存在异常与实时的访客记录等!重要的参考依据,但是当我们自己真的需要看了解,网站日志的时候,看着那些密密麻麻的代码, 我们又是一个头两个大,今天本站就交给大家如何对网站日志进行分析。 1_111213135305_1 在开始介绍之前先给大家介绍下各大搜索引擎在网站日志中的名称都是什么。
  1. 百度:Baiduspider
  2. 谷歌:google-googlebot
  3. 360:360Spider
  4. 搜搜:Sosospider
  5. 搜狗:Sogou News Spider
以上就是一些现如今一些主流的搜索引擎的蜘蛛了,如果以上的蜘蛛程序常来你的网站,那么恭喜你的网站距离成功不远了。 查看日志之前首先是需要将网站日志下载下来。现在一般虚拟空间商都会提供“访问日志下载”这一功能,如果没有的话,可以在网站程序“wwwlogs或log”进行下载 这里我先复制下本人一段网站空间日志代码给大家看下。
2012-02-08 09:05:25 GET /default.asp – – 220.181.108.180 HTTP/1.1 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) – 200 34499 421
  这是一行日志代码,大家应该知道Baiduspide是百度蜘蛛的名称,我们可以从这行代码中看到百度蜘蛛对网站的爬行信息。 2012-02-08 09:05:25 GET /default.asp,这个大家一看就应该明白,意思是Baiduspider这个名称的用户也就是百度蜘蛛在2012-02-08 09:05:25 这个时间爬行了我们网站的主页也就是default.asp页面,这个get就是搜索引擎的一个抓取动作。 220.181.108.180,这个代表的是来访用户的ip地址,在这条日志中这个ip地址就代表着百度蜘蛛的ip来路。相信有过建站经验的朋友对这个ip应该都是极为熟悉的了。 HTTP/1.1这个代码代表的是一个超文本传输协议,接触网络的人应该都知道网络上信息的传递是需要通过一定的网络协议的,这个HTTP/1.1就是众多协议的一种,大家不必对这太过关注,当然如果感兴趣也可以仔细了解。
Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html)
  这段代码Mozilla/5.0代表的意思就是用户使用的浏览器是Mozilla/5.0,而括号里面的信息新站日志中如果出现了应该能让站长们兴奋一会儿,它就是百度蜘蛛了,可以说是搞百度优化站长们的衣食父母啊,对它是又爱又恨啊。 200 34499 421这段代码中“200”代表的是蜘蛛爬行返回的状态码,200代表的是爬行成功的意思,34499代表的是爬行网页的大小。 以上就是本站对网站日志的一些解答,当然了 这只是众多网站日志中的一种,在不同的空间安装的网站,网站的日志也会不一样的。不过只要知道http的一些状态码和一些代码所代表的意思,看懂网站日志是没有任何问题的。 下面着重讲的应该就是返回的状态码代表的含义了: 其实简单的总结下2**的代码代表的是正常
  • 200 正常;请求已完成。
  • 201 正常;紧接 POST 命令。
  • 202 正常;已接受用于处理,但处理尚未完成。
  • 203 正常;部分信息 — 返回的信息只是一部分。
  • 204 正常;无响应 — 已接收请求,但不存在要回送的信息。
  • 3**的代码代表的是重定向
  • 301 已移动 — 请求的数据具有新的位置且更改是永久的。
  • 302 已找到 — 请求的数据临时具有不同 URI。
  • 303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
  • 304 未修改 — 未按预期修改文档。
  • 305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
  • 306 未使用 — 不再使用;保留此代码以便将来使用。
  • 4xx代码代表的是客户机中出现的错误
  • 400 错误请求 — 请求中有语法问题,或不能满足请求。
  • 401 未授权 — 未授权客户机访问数据。
  • 402 需要付款 — 表示计费系统已有效。
  • 403 禁止 — 即使有授权也不需要访问。
  • 404 找不到 — 服务器找不到给定的资源;文档不存在。
  • 407 代理认证请求 — 客户机首先必须使用代理认证自身。
  • 415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
  • 5xx的代码代表服务器中出现的错误
  • 500 内部错误 — 因为意外情况,服务器不能完成请求。
  • 501 未执行 — 服务器不支持请求的工具。
  • 502 错误网关 — 服务器接收到来自上游服务器的无效响应。
  • 503 无法获得服务 — 由于临时过载或维护,服务器无法处理
新疆SEO点评:其实我们平常分析网站日志最重要的一点就是要知道这些状态码代表的是什么意 思,这样才能了解网站页面的获取情况。现在有好多网站日志分析软件可以直接分析网站日志不用站长在费心费力的去查看了,不过个人感觉像这种站长基本技能新 手还是学习一下比较好,万一那天软件出毛病或者是有其他情况也不会啥也分析不了。