查询并禁止apache中异常访问量的用户

Apache中的异常访问,通常指的是频繁、大量访问的用户,通过apache的log,结合linux下的几个命令,可以分析这些用户,并通过apache的配置文件来禁止他们访问。

首先,更改apache的log方式,不记录一些图像、css等文件,这样在log中每一行基本上都能对应一次访问,如果不去除图像等文件的记录,正常用户访问一个页面,同时也会下载页面上的图像、css等文件,会产生多条log记录,影响计数的结果。在apache的conf文件中增加如下配置:

SetEnvIfNoCase Request_URI \.css$ useless-file
SetEnvIfNoCase Request_URI \.gif$ useless-file
SetEnvIfNoCase Request_URI \.ico$ useless-file
SetEnvIfNoCase Request_URI \.jpg$ useless-file
SetEnvIfNoCase Request_URI \.js$ useless-file
CustomLog logs/fwolf.com/access.log combined env=!useless-file

这样就可以了,关于SetEnvIf的其他用法,可以参见Apache文档中SetEnvIfEnvironment Variables in Apache部分。

接下来,经过一段时间的运行,我们就可以分析log文件中访问量最大的用户了,只需要一条命令:

cat access.log |awk '{print $1}'| sort | uniq -c |sort -n

一点点的来看:

  • cat就不用说了;
  • awk的作用,就是把第一列,也就是客户端ip地址分拣出来;
  • 第一个sort,是把分拣出来的ip地址排序,这样相同的ip地址会排在一起
  • uniq是一个去除重复值的工具,但是带上-c参数,就可以统计出每个值出现了多少次
  • 最后的sort,把uniq产生的结果进行排序,按照-n这个参数的默认设置,最大的排在最下面。

所以,我们得到的结果应该是这样的:

......
2040 219.148.106.198
2047 218.12.78.14
2149 218.12.26.233
2205 121.28.4.34

第一列就是访问次数,第二列是ip地址,再回去对照log文件中的详细内容,如果发现哪个访问量大户是某某机器人的话,就可以禁止掉了,还是修改apache的conf文件:

<Directory />
    Order Deny,Allow
    Deny from 219.143.69.2
    Deny from 218.12.26.233
    Deny from 61.135.162.51
    Allow from all
</Directory>

如此反复监测、设置,直到没有人捣乱为止。

同理,如果想查看反复刷新查看某一页面的用户,可以用如下命令:

grep "GET /url/to/some/file" access.log |awk '{print $1}' |sort |uniq -c |sort -n

Apache的Order Allow Deny心得

今天又被这两个参数小小的耍了一把,痛下决心整理一下,免得再被耽误时间。

Allow和Deny可以用于apache的conf文件或者.htaccess文件中(配合Directory, Location, Files等),用来控制目录和文件的访问授权。

所以,最常用的是:

	Order Deny,Allow
	Allow from All

注意“Deny,Allow”中间只有一个逗号,也只能有一个逗号,有空格都会出错;单词的大小写不限。上面设定的含义是先设定“先检查禁止设定,没有禁止的全部允许”,而第二句没有Deny,也就是没有禁止访问的设定,直接就是允许所有访问了。这个主要是用来确保或者覆盖上级目录的设置,开放所有内容的访问权。

按照上面的解释,下面的设定是无条件禁止访问:

	Order Allow,Deny
	Deny from All

如果要禁止部分内容的访问,其他的全部开放:

	Order Deny,Allow
	Deny from ip1 ip2

或者

	Order Allow,Deny
	Allow from all
	Deny from ip1 ip2

apache会按照order决定最后使用哪一条规则,比如上面的第二种方式,虽然第二句allow允许了访问,但由于在order中allow不是最后规则,因此还需要看有没有deny规则,于是到了第三句,符合ip1和ip2的访问就被禁止了。注意,order决定的“最后”规则非常重要,下面是两个错误的例子和改正方式:

	Order Deny,Allow
	Allow from all
	Deny from domain.org

错误:想禁止来自domain.org的访问,但是deny不是最后规则,apache在处理到第二句allow的时候就已经匹配成功,根本就不会去看第三句。 解决方法:Order Allow,Deny,后面两句不动,即可。

	Order Allow,Deny
	Allow from ip1
	Deny from all

错误:想只允许来自ip1的访问,但是,虽然第二句中设定了allow规则,由于order中deny在后,所以会以第三句deny为准,而第三句的范围中又明显包含了ip1(all include ip1),所以所有的访问都被禁止了。 解决方法一:直接去掉第三句。 解决方法二:

	Order Deny,Allow
	Deny from all
	Allow from ip1