在网站的SEO优化过程中分析网站日志是不可避免的。网站日志的分析和诊断,通过网站日志的分析,可以更明确地了解网站的健康状态,使用这些数据,对于开展网站SEO优化是有利的。
通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。对于专业从事seo优化工作人员来讲,网站日志可以记录各搜索引擎蜘蛛机器人爬行运动网站的具体情况,比如:哪个iP的百度蜘蛛机器人在哪浏览了网站几回,浏览了哪些页面,以及页面访问时回到的.com状态码。
常见的蜘蛛名称:
Baiduspider:百度蜘蛛
Baiduspider-Image:百度图片蜘蛛
Googlebot:谷歌机器人
Googlebot-Image:谷歌图片机器人
360Spider:360蜘蛛
sogouspider:搜狗蜘蛛
一、网站日志的作用
1、通过网站日志可以了解蜘蛛对网站的基本爬取情况,可以知道蜘蛛的爬取轨迹和爬取量。
2、网站的更新频率也和网站日志中蛛蛛爬取的频率有关,通常情况下更新频率越高,蛛蛛的爬取频率越高,而我们网站的更新不仅只是新内容的添加同时还有我们的调整操作。
3、我们可以根据网站日志的反应情况,(快手刷粉平台),对我们的空间的某些事情和问题提前进行预警,因为服务器如果出问题的话在网站日志中会时间反映出来,(店家社区网:公众号开通流量主网站),要知道服务器的稳定速度和打开速度两者都会直接影响我们的网站。
4、通过网站日志我们可以知道网站的那些页面是很受蜘蛛欢迎的,而哪些页面是蜘蛛连碰都不去碰的,同时我们还能发现有一些蜘蛛由于是过度爬取对我们的服务器资源损耗是很大的,我们要进行屏蔽工作。
二、如何下载网站日志
1、首先我们的空间支持网站日志的下载是很重要的,(网站文章代更新:hongke123.com),在购买空间的时候需要事先知道是否支持日志的下载的。因为也有不提供服务的提供商,所以如果支持的话,(快手刷赞平台),在空间的后台具有下载日志WebLog日志的功能,可以将其下载到根目录,通过FTP本地传输,服务器指定了日志文件
2、这里有个很重要的问题,网站日志强烈建议设置成每小时生成一次,小型的企业站和页面内容较少的网站可以设置成,它默认是,如果内容多或者大型站设置成生成一次,那么只生成一个文件,这个文件会相当的大,我们有时电脑打开是会造成死机,设置的话找空间商协调设置即可。
三、网站日志数据分析
1、网站日志中数据量过大,所以我们一般需要借助网站日志分析工具来查看。常用的日志分析工具有:光年日志分析工具、weblogexploer、WPS表格等
117.26.203.167–[02/May/2011:01:57:44-0700]"GET/index.phpHTTP/1.1"50019967"-""Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;AskTbCS-ST/5.11.3.15590;.NETCLR2.0.50727;AlexaToolbar)"
分析:
117.26.203.167访问ip;
02/May/2011:01:57:44-0700访问日期-时区;
GET/index.phpHTTP/1.1根据HTTP/1.1协议抓取(域名下)/index.php这个页面(GET表示服务器动作);
500服务器响应状态码;
服务器响应状态码通常状态码有以下几种:200,301,302,304,404,500等。200代表用户成功的获取到了所请求的文件,(快手刷赞平台),如果是搜索引擎,则证明蜘蛛在这次爬行中顺利的发现了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(性)处理,302则是暂时性重定向。404则代表所访问的页面已经不存在了,或者说访问的url根本就是个错误的。500则是服务器的错误。
19967表示抓取了19967个字节;
Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;AskTbCS-ST/5.11.3.15590;.NETCLR2.0.50727;AlexaToolbar表示访问者使用火狐浏览器及AlexaToolbar等访问端信息;
2、如果你的日志里格式不是如此,则代表日志格式设置不同。
3、很多日志里可以看到20000和200064则都代表正常抓取。
4、爬取频率是通过查看每天的系统日志里百度爬虫爬取频次来得知。爬行频率没有标准的时间表或频率编号。我们通常通过比较许多天的日志来判断它。当然,我们希望百度蜘蛛每天都能爬行。