如何分析网站日志

2013-09-09 00:07:16 59.60.7.125 GET /news/news2013524236.html - 80 - 123.125.71.16 HTTP/1.1 Mozilla/5.0+(Linux;u;Android+2.3.7;zh-cn;)+AppleWebKit/533.1+(KHTML,like+Gecko)+Version/4.0+Mobile+Safari/533.1+(compatible;++http://www.baidu.com/search/spider.html) - - www.jinh.cn 200 0 0 16143 296 140

上面一段文字是笔者从网站日志中截取的完整的一小段。GET的前面有两个数据，前半部分是时间，后半部分就是你网站的域名IP了，GET后面到-前面所代表的是蜘蛛所爬行的页面。若什么都没有的，就代表了它爬了你网站的首页。

后面的-后面就是非常重要的爬行蜘蛛的IP了。一般常见的IP其实就两种一种是提权蜘蛛的IP220.181.108.*，另一种就是垃圾内容的查看蜘蛛123.125.71.*。对于新站来讲，还需要特别留意一个IP：121.14.89.*。这个IP代表了你的新站已经摆脱了新站的考察期，正式成为一个普通网站看待。

还有一些需要注意的就是IP的第三个区间段为68或者51的IP，当这些IP大量出现在你的网站的时候，我可以负责任的告诉你们：亲们，你可以为你的网站准备后事了。

当然很多时候你还会发现很多你看不懂的IP，大多时候都是你在用一些网站监测工具的时候，它们模拟百度蜘蛛产生的IP，如站长之家，爱站网等。这些的冒牌货用NSLOOKUP命令一查便知，完全没必要太过于在意。

然后IP后面跟着的一大堆唯一要注意就是那个网址。它代表了蜘蛛找到你的网站的入口。比如你再某博客或者论坛发表了一篇文章，而后面发现蜘蛛是从那里找到你的网站的。那么，说明这个外链是效果比较好的，你就可以继续坚持去做下去。然后就是最后那些返回值了，就是200 0 0这一段。返回的代码一般有200、301、304、403、404这些代码在网上都可以找到先关说明笔者就不多做介绍了。最后的那三个值代表了下载，上传以及耗时。

百度最初爬行网站的内容的蜘蛛应该都是220.181.108.*，百度在爬行每一个新页面的时候都是用提权蜘蛛，然后通过提取到的内容，返回数据库进行对比，从而决定了第二次爬你网站蜘蛛的IP。也就是说，所谓的220.181.108.*爬过的网页隔天收录是针对第二次的IP而言。

两个IP分别是220.181.108.97和123.125.71.49可以很容易看出来这2个IP一个是提权的蜘蛛，一个是垃圾内容的蜘蛛。

日志分析的主要作用是：

第一：内容上的指导。当我们网站的页面出现123.125.71.*的IP时我们应该引起警觉。对于这样的页面我们应该第一时间去查看下，这个页面的内容是否抄袭，或者内容是否属于垃圾内容。对于123.125.68以及220.181.51.*的IP我们应该把它理解为百度蜘蛛对你网站的警告。对于这些情况我们应第一时间对于想对应的页面进行整改。很多时候我们蜘蛛在访问网站的时候会返回301,304,403,404等代码，我们也要及时地应对。

第二外链上的指导。很多时候我们在发外链的时候可能不知道什么样的外链是有效的，什么是高质的，什么是垃圾的。这是一个很难以确定标准的东西。但是我们在网站日志里可以看到一些端倪。例如网站每次记录都是有一个来源的，通过入口的来源，我们可以发现，这条记录百度是通过哪里进入你的网站的。或者很多有心的人会发现，我们发外链的时候所给的链接是不一样的。

第三，综合的指导。经常性我们在日志里可以发现一些返回值不是200的条目，而通过日志的返回值我们就可以很容易地找到，这个页面，并且对于这个页面的错误或者不足进行修改。而通过对于网站每天日志的对比记录，我们可以发现，蜘蛛每天来网站的次数是增加了还是减少了。如果增加了，是一些友好的IP还是不好的IP，这些记录又是从哪个入口进入的。从而分析出我们在日常的网站SEO工作中，在哪些方面是做得比较好的，哪些方面是不足的。

再次强调一点，蜘蛛的IP是在未爬行到网站之前决定的，所以千万别看到220.181.108.*的IP就以为是天使的眷顾，它也很可能是死神的镰刀!下次笔者将和大家分享，如何深度分析网站的日志。

（QQ/微信：314111741）：西安王尘宇 » 如何分析网站日志

如何分析网站日志

作者：网站建设

相关推荐

友情链接

Recent Posts

Tags

Tags

Categories

觉得文章有用就打赏一下文章作者

微信扫一扫打赏