设为首页 加入收藏


TOP

了解网站日志语法结构,学会分析网站日志

2011-08-09 18:43:29 来源: 作者: 【 】 浏览:37次 评论:1
作为一个网站管理人员,我们该除了通过流量统计工具来查看网站访问人数之外,并不能帮助我们很好地了解网站的运行状况,而网站日志的出现很好地帮助我们解决这一问题。网站日志是由网站所在服务器实时记录网站运行状态的各种数据的文件,通过对网站日志的分析,我们可以知道哪些用户访问了网站,访问了哪些页面;同时可以查看到搜索引擎中的蜘蛛在网站中的爬行情况,利用网站日志还能查看到请求中返回的HTTP协议状态码,长期分析网站日志中的HTTP状态码能够发现对网站不利的细节部分,使网站管理人员更好地管理和优化网站。

一、网站日志存放在哪里?
  网站日志一般存放在网站根目录下的“log文件夹”或“logfiles文件夹”,文件夹名称视各虚拟主机提供商不同而不同。网站日志是以txt结尾的文本文件。可以通过FlashFxp、Leapftp等网站上传下载工具将日志下载到本地进行分析。

二、网站日志语法结构:
  #Software: Microsoft Internet Information Services 6.0
  #Version: 1.0
  #Date: 2010-08-11 00:00:17
  #Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes
  
说明:
  #Software:表示软件名称;
  #Version:表示版本号;
  #Date:表示时间
  #Fields:说明如下:
  date:表示记录访问日期;
  time:访问具体时间;
  s-sitename:表示你的虚拟主机的代称或机器码;
  s-ip:服务器IP;
  cs-method:表示访问方法或发生的请求/提交事件,常见的有两种:一个是GET,就是平常我们打开一个URL访问的动作,另一个是POST,提交表单时的动作;
  cs-uri-stem:用户在当前时间访问哪一个文件或具体页面;
  cs-uri-query:是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用“-”表示;
  s-port:访问的端口
  cs-username:访问者名称,如果没有参数则用“-”表示;
  c-ip:访问者IP
  cs(User-Agent):访问的搜索引擎和蜘蛛名称;
  sc-status:Http状态码,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;
  sc-substatus:服务端传送到客户端的字节大小;
  cs–win32-statu:客户端传送到服务端的字节大小;
  sc-bytes:服务端传送数据字节大小;
  cs-bytes:用户请求数据字节大小;
  http状态码后面几位数据没有固定格式,如果只有一个表示下载数据字节大小;

        Http状态码说明:
  1**:请求收到,继续处理
  2**:操作成功收到,分析、接受
  3**:完成此请求必须进一步处理
  4**:请求包含一个错误语法或不能完成
  5**:服务器执行一个完全有效请求失败
三、网站日志案例:

日志片段1:
2010-08-09 11:44:32 W3SVC622339 222.186.25.142 GET /index.html - 80 - 123.125.66.70 Baiduspider+(+http://www.baidu.com/search/spider.htm) 304 0 0 283

解释说明:这一记录表示百度蜘蛛在2010-08-09 11:44:32这一时间爬过网站根目录下的“index.html“这一页,通过返回的304状态码表示蜘蛛认为网页内容没有更新或没有修改,283表示蜘蛛下载这一页面的字节大小。

日志片段2:
117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)"

解释说明:
117.26.203.167     访问ip
02/May/2011:01:57:44 -0700 访问日期 -时区
GET/index.php HTTP/1.1 根据HTTP/1.1 协议 抓取(域名下)/index.php 这个页面(GET表示服务器动作)
500 服务器响应状态码(500表示服务器内部出错)
19967 表示抓取了19967个字节
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar 表示访问者使用火狐浏览器及Alexa Toolbar 等访问端信息

由于各个idc服务商提供不同的主机服务,网站日志里格式也是不相同的。具体情况还需看网站日志的设置。
      
您看到此篇文章时的感受是:
Tags:网站日志 责任编辑:admin
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到QQ空间
分享到: 
上一篇没有了 下一篇HTTP状态码(HTTP Status Code)详解 ..



评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容:

相关栏目

最新文章

图片主题

热门文章

推荐文章

相关文章

广告位