服务热线:

0755-88835959

网络时代客服中心 网络时代客服邮箱 网络时代 网络时代客服电话

最新优惠信息:

Apache应用
当前位置:首页 >> 技术分享 >> Apache应用

Apache日志解说

2014-09-10 22:30:53   来源:    点击:
Apche日志系列(1):访问日志


想要知道什么人在什么时候浏览了网站的哪些内容吗?查看Apache的访问日志就能知道。访问日志是Apache的标准日志,本文周详解释了访问日志的内容及相关选项的设置。

一、访问日志的格式

   Apache内建了记录服务器活动的功能,这就是他的日志功能。这个《Apache日志》系列文章介绍的就是Apache的访问日志、错误日志,及怎么分析日志数据,怎么制定Apache日志,怎么从日志数据生成统计报表等内容。

   如果Apache的安装方式是默认安装,服务器一运行就会有两个日志文件生成。这两个文件是access_log(在视窗系统上是access.log)和error_log(在视窗系统上是error.log)。采用默认安装方式时,这些文件能在/usr/local/apache/logs下找到;对于视窗系统系统,这些日志文件将保存在Apache安装目录的logs子目录。不同的包管理器会把日志文件放到各种不同的位置,所以你可能需要找找其他的地方,或通过设置文件查看这些日志文件设置到了什么地方。

   正如其名字所示,访问日志access_log记录了所有对Web服务器的访问活动。下面是访问日志中一个典型的记录:


216.35.116.91 - - [19/Aug/2000:14:47:37 -0400] "GET / HTTP/1.0" 200 654

 

 

   这行内容由7项构成,上面的例子中有两项空白,但整行内容仍旧分成了7项。

   第一项信息是远程主机的地址,即他表明访问网站的究竟是谁。在上面的例子中,访问网站的主机是216.35.116.91。随便说一句,这个地址属于一台名为si3001.inktomi.com的机器(要找出这个信息,能使用nslookup工具查找DNS),inktomi.com是一家制作Web搜索软件的公司。能看出,仅仅从日志记录的第一项出发,我们就能得到有关访问者的不少信息。

   默认情况下,第一项信息只是远程主机的IP地址,但我们能需求Apache查出所有的主机名字,并在日志文件中用主机名字来替代IP地址。然而,这种做法通常不值得推荐,因为他将极大地影响服务器记录日志的速度,从而也就减低了整个网站的效率。另外,有许多工具能够将日志文件中的IP地址转换成主机名字,因此需求Apache记录主机名字替代IP地址是得不偿失的。

   然而,如果确实有必要让Apache找出远程主机的名字,那么我们能使用如下指令:

 

HostNameLookups on

 

 

   如果HostNameLookups设置成double而不是on,日志记录程式将对他找到的主机名字进行反向查找,验证该主机名字确实指向了原来出现的IP地址。默认情况下HostNameLookups设置为off。

   上例日志记录中的第二项是空白,用一个“-”占位符替代。实际上绝大多数时候这一项都是如此。这个位置用于记录浏览者的标识,这不只是浏览者的登录名字,而是浏览者的email地址或其他唯一标识符。这个信息由identd返回,或直接由浏览器返回。非常早的时候,那时Netscape 0.9还占据着统治地位,这个位置往往记录着浏览者的email地址。然而,由于有人用他来收集邮件地址和发送垃圾邮件,所以他未能保留多久,非常久之前市场上几乎所有的浏览器就取消了这项功能。因此,到了今天,我们在日志记录的第二项看到email地址的机会已微乎其微了。

   日志记录的第三项也是空白。这个位置用于记录浏览者进行身份验证时提供的名字。当然,如果网站的某些内容需求用户进行身份验证,那么这项信息是不会空白的。不过,对于大多数网站来说,日志文件的大多数记录中这一项仍旧是空白的。

   日志记录的第四项是请求的时间。这个信息用方括号包围,而且采用所谓的“公共日志格式”或“标准英文格式”。因此,上例日志记录表示请求的时间是2000年8月19日星期三14:47:37。时间信息最后的“-0400”表示服务器所处时区位于UTC之前的4小时。

   日志记录的第五项信息或许是整个日志记录中最有用的信息,他告诉我们服务器收到的是个什么样的请求。该项信息的典型格式是“METHOD RESOURCE PROTOCOL”,即“方法 资源 协议”。

   在上例中,METHOD是GET,其他经常可能出现的METHOD更有POST和HEAD。此外更有不少可能出现的合法METHOD,但主要就是这三种。

   RESOURCE是指浏览者向服务器请求的文件,或URL。在这个例子中,浏览者请求的是“/”,即网站的主页或根。大多数情况下,“/”指向DocumentRoot目录的index.html文件,但根据服务器设置的不同他也可能指向其他文件。

   PROTOCOL通常是HTTP,后面再加上版本号。版本号或是1.0,或是1.1,但出现1.0的时候比较多。我们知道,HTTP协议是Web得以工作的基础,HTTP/1.0是HTTP协议的早期版本,而1.1是最近的版本。当前大多数Web客户程式仍使用1.0版本的HTTP协议。

   日志记录的第六项信息是状态代码。他告诉我们请求是否成功,或遇见了什么样的错误。大多数时候,这项值是200,他表示服务器已成功地响应浏览器的请求,一切正常。此处不准备给出状态代码的完整清单及解释他们的含义,请参考相关资料了解这方面的信息。但一般地说,以2开头的状态代码表示成功,以3开头的状态代码表示由于各种不同的原因用户请求被重定向到了其他位置,以4开头的状态代码表示客户端存在某种错误,以5开头的状态代码表示服务器遇见了某个错误。

   日志记录的第七项表示发送给客户端的总字节数。他告诉我们传输是否被打断(即,该数值是否和文件的大小相同)。把日志记录中的这些值加起来就能得知服务器在一天、一周或一月内发送了多少数据。

 


二、设置访问日志

   访问日志文件的位置实际上是个设置选项。如果我们检查httpd.conf设置文件,能看到该文件中有如下这行内容:

 

CustomLog /usr/local/apache/logs/access_log common

 

 

   注意,对于版本较早的Apache服务器,这行内容可能略有不同。他使用的可能不是CustomLog指令,而是TransferLog指令。如果你的服务器属于这类情况,建议你尽可能地早日升级服务器。

   CustomLog指令指定了保存日志文件的具体位置及日志的格式。至于怎么制定日志文件的格式及内容,我们将在这个《Apache日志》系列文章的后面几篇讨论。上面这行指令指定的是common日志格式,自从有了Web服务器开始,common格式就是他的标准格式。由此我们也能理解,虽然几乎不再有所有客户程式向服务器提供用户的标识信息,但访问日志却还保留着第二项内容。

   CustomLog指令中的路径是日志文件的路径。注意,由于日志文件是由HTTP用户打开的(用User指令指定),因此必须注意这个路径要有安全确保,防止该文件被随意改写。

   《Apache日志》系列文章的后面几篇将继续介绍:Apache错误日志,制定日志的格式和内容,怎么将日志内容写入指定的程式而不是文件,怎么从日志文件获得一些非常有用的统计信息,等等。


Apche日志系列(2):错误日志


错误日志和访问日志相同也是Apache的标准日志。本文分析错误日志的内容,介绍怎么设置和错误日志相关的选项,文件错误和CGI错误的分类,及怎么方便地查看日志内容,等等。

一、位置和内容

   前文讨论了Apache的访问日志,包括他的内容、格式和怎么设置访问日志有关的选项。本文我们要讨论的是另外一种Apache标准日志??错误日志。

   错误日志无论在格式上还是在内容上都和访问日志不同。然而,错误日志和访问日志相同也提供丰富的信息,我们能利用这些信息分析服务器的运行情况、哪里出现了问题。

   错误日志的文件名字是error_log,但如果是视窗系统平台,则错误日志的文件名字是error.log。错误日志的位置能通过ErrorLog指令设置:

 

ErrorLog logs/error.log

 

 

   除非文件位置用“/”开头,否则这个文件位置是相对于ServerRoot目录的相对路径。如果Apache采用默认安装方式安装,那么错误日志的位置应该在/usr/local/apache/logs下。不过,如果Apache用某种包管理器安装,错误日志非常可能在其他位置。

   正如其名字所示,错误日志记录了服务器运行期间遇见的各种错误,及一些普通的诊断信息,比如服务器何时启动、何时关闭等。

   我们能设置日志文件记录信息级别的高低,控制日志文件记录信息的数量和类型。这是通过LogLevel指令设置的,该指令默认设置的级别是error,即记录称得上错误的事件。有关该指令中允许设置的各种选项的完整清单,请参见http://www.apache.org/docs/mod/core.html#loglevel的Apache文件。

   大多数情况下,我们在日志文件中见到的内容分属两类:文件错误和CGI错误。不过,错误日志中偶尔也会出现设置错误,另外更有前面提到的服务器启动和关闭信息。


二、文件错误

   文件错误和服务器应答中的400系列代码相对应,最常见的就是404错误??Document Not Found(文件没有找到)。除了404错误以外,用户身份验证错误也是一种常见的错误。

   404错误在用户请求的资源(即URL)不存在时出现,他可能是由于用户输入的URL错误,或由于服务器上原来存在的文件因故被删除或移动。

   顺便说一下,按照Jakob Nielson的意见,在不提供重定向或其他补救措施的情况下,我们永远不应该移动或删除Web网站的所有资源。

   当用户不能打开服务器上的文件时,错误日志中出现的记录如下所示:

 

[Fri Aug 18 2:36:26 2000] [error]

[client 192.168.1.6] File does not exist:

/usr/local/apache/bugletdocs/Img/south-korea.gif

   能看到,正如访问日志access_log文件相同,错误日志记录也分成多个项。

   错误记录的开头是日期/时间标记,注意他们的格式和access_log中日期/时间的格式不同。access_log中的格式被称为“标准英文格式”,这或许是历史跟我们开的一个玩笑,但目前要改动他已太迟了。

   错误记录的第二项是当前记录的级别,他表明了问题的严重程度。这个级别信息可能是LogLevel指令的文件中所列出的任一级别,error级别处于warn级别和crit级别之间。404属于error错误级别,这个级别表示确实遇见了问题,但服务器还能运行。

   错误记录的第三项表示用户发出请求时所用的IP地址。

   记录的最后一项才是真正的错误信息。对于404错误,他还给出了完整路径指示服务器试图访问的文件。当我们料想某个文件应该在目标位置却出现了404错误时,这个信息是非常有用的。此时产生这种错误的原因往往是由于服务器设置错误、文件实际所处的虚拟主机和我们料想的不同,或其他一些意料不到的情况。

   由于用户身份验证问题而出现的错误记录如下所示:

 

[Tue Apr 11 22:13:21 2000]

[error] [client 192.168.1.3] user rbowen@rcbowen.

com: authentication failure for "/cgi-bin/hirecareers/company.cgi":

password mismatch

   注意,由于文件错误是用户请求的直接结果,因此他们在访问日志中也会有相应的记录。

三、CGI错误
   错误日志最主要的用途或许是诊断行为异常的CGI程式。为了进一步分析和处理方便,CGI程式输出到STDERR(Standard Error,标准错误设备)的所有内容都将直接进入错误日志。这意味着,所有编写良好的CGI程式,如果出现了问题,错误日志就会告诉我们有关问题的周详信息。

   然而,把CGI程式错误输出到错误日志也有他的缺点,错误日志中将出现许多没有标准格式的内容,这使得用错误日志自动分析程式从中分析出有用的信息变得相当困难。

   下面是个例子,他是调试Perl CGI代码时,错误日志中出现的一个错误记录:

 

[Wed Jun 14 16:16:37 2000] [error] [client 192.168.1.3] Premature

end of script headers: /usr/local/apache/cgi-bin/HyperCalPro/announcement.cgi

Global symbol "$rv" requires explicit package name at

/usr/local/apache/cgi-bin/HyperCalPro/announcement.cgi line 81.

Global symbol "%details" requires explicit package name at

/usr/local/apache/cgi-bin/HyperCalPro/announcement.cgi line 84.

Global symbol "$Config" requires explicit package name at

/usr/local/apache/cgi-bin/HyperCalPro/announcement.cgi line 133.

Execution of /usr/local/apache/cgi-bin/HyperCalPro/announcement.cgi

aborted due to compilation errors.

   能看到,CGI错误和前面的404错误格式相同,包含日期/时间、错误级别及客户地址、错误信息。但这个CGI错误的错误信息有好几行,这往往会干扰一些错误日志分析软件的工作。

   有了这个错误信息,即使是对Perl不太熟悉的人也能够找出许多有关错误的信息,例如至少能方便地得知是哪几行代码出现了问题。Perl在报告程式错误方面的机制是相当完善的。当然,不同的编程语言输出到错误日志的信息会有所不同。

   由于CGI程式运行环境的特别性,如果没有错误日志的帮助,大多数CGI程式的错误都将非常难解决。

   有不少人在邮件列表或新闻组中抱怨说自己有一个CGI程式,当打开网页时服务器却返回错误,比如“Internal Server Error”。我们能肯定,这些人还没有看过服务器的错误日志,或根本不知道错误日志的存在。决多大多数情况下,错误日志能够精确地指出CGI错误的所在及怎么修正这个错误。

四、查看日志文件

   我常常告诉别人说,在进行研发的同时我会不断地检查服务器的日志,以便能够即时知道哪儿出了问题。但我得到的回答却往往是沉默。起先我以为这种沉默意味着“你当然得这样做”,后来我才发现这种沉默的真正含义是“我不知道别人的做法,但我自己是不干的。”

   虽然如此,下面我们还是要看看怎么方便地查看服务器日志文件。用telnet连接到服务器,然后输入下面的命令:

tail -f /usr/local/apache/logs/error_log

   该命令将显示出日志文件的最后几行内容,如果有新的内容加入到日志文件,他还会即时显示出新加入的内容。

   视窗系统用户也同样能使用这种方法,比如能使用各种为视窗系统提供的Unix工具软件包。我个人爱好一个称为AINTX的工具,他能在http://maxx.mc.net/~jlh/nttools/index.htm找到。

   更有一种替代方法是使用下面的Perl代码,他利用了一个称为File::Tail的模块:

use File::Tail;

$file=File::Tail->new("/some/log/file");

while (defined($line=$file->read)) {

print "$line";

}

   无论具体采用的是哪一种方法,同时打开多个终端窗口都是一种好习惯:比如在一个窗口中显示错误日志,在另一个窗口中显示访问日志。这样,我们就能够随时获知网站上发生的事情并即时予以解决。

   在此之后,我们还将讨论日志文件的处理,即怎么从日志文件生成统计报表。在最后几篇文章中,我们还将讨论怎么把日志记录重定向到指定的程式而不是保存到日志文件,以便由程式实时地处理新生成的日志数据,比如将日志数据保存到数据库,或当发生某些关键性错误时通过email把日志信息发送给系统管理员,等等。

Apche日志系列(3):制定日志


有时候我们需要制定Apache默认日志的格式和内容,比如增加或减少日志所记录的信息、改动默认日志文件的格式等。本文介绍能用日志记录的所有信息,及怎么设置Apache使其记录这些信息。

一、定义日志格式(4月3日)

   非常久以前,日志文件只有一种格式,这就是“公共格式”,许多人已习惯于使用这种格式。随后出现了制定日志格式,而且看起来制定日志格式更非常受欢迎,即使公共日志格式本身也重新用制定日志格式定义。本文介绍的就是怎么随心所欲地制定日志文件的格式、怎么让日志文件记录自己想要的信息。

   制定日志文件的格式涉及到两个指令,即LogFormat指令和CustomLog指令,默认httpd.conf文件提供了关于这两个指令的几个示例。

   LogFormat指令定义格式并为格式指定一个名字,以后我们就能直接引用这个名字。CustomLog指令设置日志文件,并指明日志文件所用的格式(通常通过格式的名字)。

   LogFormat指令的功能是定义日志格式并为他指定一个名字。例如,在默认的httpd.conf文件中,我们能找到下面这行代码:

LogFormat "%h %l %u %t \"%r\" %>s %b" common

   该指令创建了一种名为“common”的日志格式,日志的格式在双引号包围的内容中指定。格式字符串中的每一个变量代表着一项特定的信息,这些信息按照格式串规定的次序写入到日志文件。

   Apache文件已给出了所有可用于格式串的变量及其含义,下面是其译文:

----------------------------------------------------------------------

%...a: 远程IP地址

%...A: 本地IP地址

%...B: 已发送的字节数,不包含HTTP头

%...b: CLF格式的已发送字节数量,不包含HTTP头。

例如当没有发送数据时,写入‘-’而不是0。

%e: 环境变量FOOBAR的内容

%...f: 文件名字

%...h: 远程主机

%...H 请求的协议

%i: Foobar的内容,发送给服务器的请求的标头行。

%...l: 远程登录名字(来自identd,如提供的话)

%...m 请求的方法

%n: 来自另外一个模块的注解“Foobar”的内容

%o: Foobar的内容,应答的标头行

%...p: 服务器响应请求时使用的端口

%...P: 响应请求的子进程ID。

%...q 查询字符串(如果存在查询字符串,则包含“?”后面的

部分;否则,他是个空字符串。)

%...r: 请求的第一行

%...s: 状态。对于进行内部重定向的请求,这是指*原来*请求

的状态。如果用%...>s,则是指后来的请求。

%...t: 以公共日志时间格式表示的时间(或称为标准英文格式)

%t: 以指定格式format表示的时间

%...T: 为响应请求而耗费的时间,以秒计

%...u: 远程用户(来自auth;如果返回状态(%s)是401则可能是伪造的)

%...U: 用户所请求的URL路径

%...v: 响应请求的服务器的ServerName

%...V: 依照UseCanonicalName设置得到的服务器名字
------------------------------------------------------------------


   在所有上面列出的变量中,“...”表示一个可选的条件。如果没有指定条件,则变量的值将以“-”取代。分析前面来自默认httpd.conf文件的LogFormat指令示例,能看出他创建了一种名为“common”的日志格式,其中包括:远程主机,远程登录名字,远程用户,请求时间,请求的第一行代码,请求状态,及发送的字节数。

   有时候我们只想在日志中记录某些特定的、已定义的信息,这时就要用到“...”。如果在“%”和变量之间放入了一个或多个HTTP状态代码,则只有当请求返回的状态代码属于指定的状态代码之一时,变量所代表的内容才会被记录。例如,如果我们想要记录的是网站的所有无效链接,那么能使用:

----------------------------------------------------

LogFormat %404{Referer}i BrokenLinks

---------------------------------------------------

   反之,如果我们想要记录那些状态代码不等于指定值的请求,只需加入一个“!”符号即可:

LogFormat %!200U SomethingWrong

Apche日志系列(4):日志分析


尽管日志文件中包含着大量有用的信息,但这些信息只有在经过深入挖掘之后才能够最大限度地发挥作用。本文首先讨论了能够从日志文件获得的信息及不能从日志文件获得的信息,然后介绍了几种优秀的日志分析工具及怎么自己编程分析日志文件。

一、能得到哪些信息(4月4日)

   在这个《Apache日志》系列文章的前面几篇中,我们讨论了Apache的标准日志文件??访问日志和错误日志,及怎么制定日志文件。本文接下来讨论怎么分析日志文件获得宝贵的统计信息。

   我们面临的问题是,虽然日志文件中包含了大量的信息,但这些信息对于我们管理、规划网站却没有多少直接的帮助。为了管理和规划网站,我们需要知道:有多少人浏览了网站,他们在看些什么,停留了多长时间,他们从哪里得知这个网站,等等。所有这些信息就隐藏于(或可能隐藏于)日志文件之中。

   就网站的经营者而言,他们还希望知道浏览者的姓名、地址、鞋子大小,甚至更有浏览者的信用卡号码,但这些信息都不可能从日志文件中得到。为此,作为技术人员的我们就必须知道怎么向这些经营者解释清晰:这部分信息不仅不可能从日志文件获得,而且要获得这些信息的唯一方法是直接向浏览者本人询问,并作好被拒绝的准备。

   有许多信息能用日志文件来记录,其中包括:

远程机器的地址:“远程机器的地址”和“谁在浏览网站”差不多,但并不等同。具体地说,远程机器的地址告诉我们浏览者来自何方,比如他可能是buglet.rcbowen.com或proxy01.aol.com。

浏览时间:浏览者何时开始访问网站?从这个问题的答案中我们能够了解不少情况。如果网站的大多数浏览者都在早上9:00和下午4:00之间访问网站,那么能相信网站的浏览者大多数总在工作时间进行访问;如果访问记录大多出目前下午7:00到午夜之间,我们能肯定浏览者一般在家里上网。 当然,从单个访问记录能够得到的信息非常有限,但如果从数千个访问记录出发,我们就能得到非常有用和重要的统计信息。

用户所访问的资源:网站的哪些部分最受用户欢迎?这些最受欢迎的部分就是我们应该继续加以发展的部分。网站的哪些部分总是受到冷落?网站中这些受到冷落的部分或许隐藏得太深,或许他们确实没有什么意思,此时我们就得想办法加以改进。当然,网站更有的内容,比如法律上的声明,虽然非常少有人访问,但却不应该随便地改动他们。

无效链接:当然,日志文件还能够告诉我们哪些东西不能按照我们所想象地运行。网站中是否存在错误的链接?其他网站链接过来时有没有搞错URL?是否存在不能正常运行的CGI程式?是否有搜索引擎检索程式每秒发出数千个请求,从而影响了本网站的正常服务?这些问题的答案都能从日志文件找到线索