by
Papasan
—
posted at
2008-10-10 06:19
last modified
2008-10-10 06:40
このところ海外のサイトからのアクセスが多く、リンク元を見ると化粧品やギャンブル、18禁/50禁、同一のサイトなのにドメイン名が複数あるものなど様々。
「Papasan's Home」とは関連性がない(だろう)サイトからのリンクアクセスについては出入り禁止にしました。
昨晩、久しぶりに生のアクセスログを開いてビックリ。それにしてもロボットが多すぎて常時20匹がうろついています。同じ検索サイトから何匹ものロボットが同時にアクセスしていますので、これらも制限することにしました。
- http://help.naver.com/robots/
- http://help.baidu.jp/system/05.html
- http://help.yahoo.com/help/us/ysearch/slurp
などなど。
今朝、ログを開くと、まだうろついています、なかなか根性があります。
- http://papasan.org/papablog/620/tbping











































































Peterさんちの鯖はVineLinuxでしたっけ?
rootユーザで次のコマンドを投入すればリアルタイムにアクセスログを見ることができます。
[root@main ~]# tail -f /var/log/httpd/access_log
鯖はVineLinux4なのでさっそく見てみましたが、/var/log/httpd/ フォルダがなかったので見えませんでした。
アクセス記録してよねって、明示しないとだめなのでしょうか?
コマンドは「tail -f Apache2のアクセスログのパス」という形式になります。アクセスログのパスは設定ファイルに記載されているはずですので確認してください。
/opt/lampp/logs/access_log
tailコマンド?で見えてますがどれがロボットなんでしょ。こんな感じですけど
118.0.77.168 - - [13/Oct/2008:20:50:53 +0900] "GET /blog/wp-content/themes/andreas04-10/images/contentbg.png HTTP/1.1" 200 811
118.0.77.168 - - [13/Oct/2008:20:50:53 +0900] "GET /blog/wp-content/themes/andreas04-10/images/bodybg.png HTTP/1.1" 200 906
118.0.77.168 - - [13/Oct/2008:20:50:53 +0900] "GET /blog/wp-content/themes/andreas04-10/images/entrybg.png HTTP/1.1" 200 219
118.0.77.168 - - [13/Oct/2008:20:50:54 +0900] "GET /blog/wp-includes/images/rss.png HTTP/1.1" 200 3341
118.0.77.168 - - [13/Oct/2008:20:50:56 +0900] "GET /favicon.ico HTTP/1.1" 200 4286
::1 - - [13/Oct/2008:20:50:57 +0900] "GET /" 400 639
74.6.8.120 - - [13/Oct/2008:20:51:22 +0900] "GET /blog/?p=61 HTTP/1.0" 200 17746
133.205.20.65 - - [13/Oct/2008:20:51:33 +0900] "GET /blog/?feed=rss2 HTTP/1.0" 200 17843
133.205.20.65 - - [13/Oct/2008:20:51:34 +0900] "GET /blog/?feed=rss2 HTTP/1.0" 304 -
66.249.6.106 - - [13/Oct/2008:20:52:21 +0900] "GET / HTTP/1.1" 200 162
66.249.71.208 - - [13/Oct/2008:20:52:38 +0900] "GET /blogold/4668499_files/d0038060_0291145.jpg HTTP/1.1" 304 -
66.249.6.106 - - [13/Oct/2008:20:52:47 +0900] "GET / HTTP/1.1" 200 162
118.0.77.168 - - [13/Oct/2008:20:56:13 +0900] "GET /blog/wp-content/themes/andreas04-10/images/menuhover.png HTTP/1.1" 200 251
アクセスログのフォーマットですが、幾つかの種類があります。
# The following directives define some format nicknames for use with
# a CustomLog directive (see below).
#
LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined
LogFormat "%h %l %u %t \"%r\" %>s %b" common
LogFormat "%{Referer}i -> %U" referer
LogFormat "%{User-agent}i" agent
Peterさんちのログは「common」形式のようですので「combined」形式に変更するとUser-Agentからロボットだと判断できるようになります。
61.247.222.55 - - [13/Oct/2008:21:17:51 +0900] "GET /papaforum/publicphotos/webcam/recent_webcam?query_start=529 HTTP/1.1" 400 302 "-" "Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)"
119.63.193.141 - - [13/Oct/2008:21:19:29 +0900] "GET /pc/book-pc HTTP/1.1" 400 302 "-" Baiduspider+(+http://help.baidu.jp/system/05.html)"
66.249.70.136 - - [13/Oct/2008:21:20:08 +0900] "GET /30b530fc30fc/ping30b530fc30fc/ HTTP/1.1" 200 55702 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
私のところでは、User-Agentを見て、"Yeti"や"Baiduspider"の文字列があるとエラー(400)にして弾いています。ログ解析のAWStatsでの統計だと70%がロボットでした。