Personal tools
You are here: Home PapaBlog ロボットうじゃうじゃ
« January 2009 »
Su Mo Tu We Th Fr Sa
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
ブログも見た目が9割!? なにを読んでも なにを見ても聞いても フェルデンクライス 2008-12-15
チョコパンもらった なにを読んでも なにを見ても聞いても フェルデンクライス 2008-12-13
いないいないばあ〜 なにを読んでも なにを見ても聞いても フェルデンクライス 2008-10-03
はんこ♪ハンコ♪♪判子 なにを読んでも なにを見ても聞いても フェルデンクライス 2008-09-28
Pythonで連想検索エンジンを使ってみる Lights on Zope 2008-05-21
恋するニワトリ 文字化け問題を解決する Lights on Zope 2008-05-17
PapaTubeはWeb5.0だ(嘘だ。。。) Lights on Zope 2008-05-12
COREBlog2のトラックバック先は? PapaBlog 2008-03-29
COREBlog2のトラックバック先は? PapaBlog 2008-03-29
トラックバックのテスト PapaBlog 2008-03-29
 
Document Actions

by Papasan posted at 2008-10-10 06:19 last modified 2008-10-10 06:40

このところ海外のサイトからのアクセスが多く、リンク元を見ると化粧品やギャンブル、18禁/50禁、同一のサイトなのにドメイン名が複数あるものなど様々。

「Papasan's Home」とは関連性がない(だろう)サイトからのリンクアクセスについては出入り禁止にしました。

昨晩、久しぶりに生のアクセスログを開いてビックリ。それにしてもロボットが多すぎて常時20匹がうろついています。同じ検索サイトから何匹ものロボットが同時にアクセスしていますので、これらも制限することにしました。

  • http://help.naver.com/robots/
  • http://help.baidu.jp/system/05.html
  • http://help.yahoo.com/help/us/ysearch/slurp

などなど。

今朝、ログを開くと、まだうろついています、なかなか根性があります。

http://papasan.org/papablog/620/tbping

Peter Posted by Peter at 2008-10-12 13:22
そんなに来てるんですか?こちらも気になりますが、アクセス記録ってどうみるんでしょうか?

Papasan Posted by Papasan at 2008-10-12 14:04
naverとbaiduはかなりシツコイですよ。どちらも5〜10個くらいのロボットが常時徘徊しています。おまけにrobot.txtも無視しているし。

Peterさんちの鯖はVineLinuxでしたっけ?
rootユーザで次のコマンドを投入すればリアルタイムにアクセスログを見ることができます。

[root@main ~]# tail -f /var/log/httpd/access_log

Peter Posted by Peter at 2008-10-12 17:52
papasan 回答ありがとさんです。
鯖はVineLinux4なのでさっそく見てみましたが、/var/log/httpd/ フォルダがなかったので見えませんでした。
アクセス記録してよねって、明示しないとだめなのでしょうか?

Papasan Posted by Papasan at 2008-10-12 18:13
あっ、Vineは/var/log/apache2/でしたっけ?

コマンドは「tail -f Apache2のアクセスログのパス」という形式になります。アクセスログのパスは設定ファイルに記載されているはずですので確認してください。

Peter Posted by Peter at 2008-10-13 20:46
ようやく見っけました。XAMPPをインストしたのでその下でした。
/opt/lampp/logs/access_log
tailコマンド?で見えてますがどれがロボットなんでしょ。こんな感じですけど
118.0.77.168 - - [13/Oct/2008:20:50:53 +0900] "GET /blog/wp-content/themes/andreas04-10/images/contentbg.png HTTP/1.1" 200 811
118.0.77.168 - - [13/Oct/2008:20:50:53 +0900] "GET /blog/wp-content/themes/andreas04-10/images/bodybg.png HTTP/1.1" 200 906
118.0.77.168 - - [13/Oct/2008:20:50:53 +0900] "GET /blog/wp-content/themes/andreas04-10/images/entrybg.png HTTP/1.1" 200 219
118.0.77.168 - - [13/Oct/2008:20:50:54 +0900] "GET /blog/wp-includes/images/rss.png HTTP/1.1" 200 3341
118.0.77.168 - - [13/Oct/2008:20:50:56 +0900] "GET /favicon.ico HTTP/1.1" 200 4286
::1 - - [13/Oct/2008:20:50:57 +0900] "GET /" 400 639
74.6.8.120 - - [13/Oct/2008:20:51:22 +0900] "GET /blog/?p=61 HTTP/1.0" 200 17746
133.205.20.65 - - [13/Oct/2008:20:51:33 +0900] "GET /blog/?feed=rss2 HTTP/1.0" 200 17843
133.205.20.65 - - [13/Oct/2008:20:51:34 +0900] "GET /blog/?feed=rss2 HTTP/1.0" 304 -
66.249.6.106 - - [13/Oct/2008:20:52:21 +0900] "GET / HTTP/1.1" 200 162
66.249.71.208 - - [13/Oct/2008:20:52:38 +0900] "GET /blogold/4668499_files/d0038060_0291145.jpg HTTP/1.1" 304 -
66.249.6.106 - - [13/Oct/2008:20:52:47 +0900] "GET / HTTP/1.1" 200 162
118.0.77.168 - - [13/Oct/2008:20:56:13 +0900] "GET /blog/wp-content/themes/andreas04-10/images/menuhover.png HTTP/1.1" 200 251

Papasan Posted by Papasan at 2008-10-13 21:33
Peterさん、お疲れさまです。XAMPPだと何処にあるのか分からなくなりますね。

アクセスログのフォーマットですが、幾つかの種類があります。
# The following directives define some format nicknames for use with
# a CustomLog directive (see below).
#
LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined
LogFormat "%h %l %u %t \"%r\" %>s %b" common
LogFormat "%{Referer}i -> %U" referer
LogFormat "%{User-agent}i" agent

Peterさんちのログは「common」形式のようですので「combined」形式に変更するとUser-Agentからロボットだと判断できるようになります。
61.247.222.55 - - [13/Oct/2008:21:17:51 +0900] "GET /papaforum/publicphotos/webcam/recent_webcam?query_start=529 HTTP/1.1" 400 302 "-" "Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)"

119.63.193.141 - - [13/Oct/2008:21:19:29 +0900] "GET /pc/book-pc HTTP/1.1" 400 302 "-" Baiduspider+(+http://help.baidu.jp/system/05.html)"

66.249.70.136 - - [13/Oct/2008:21:20:08 +0900] "GET /30b530fc30fc/ping30b530fc30fc/ HTTP/1.1" 200 55702 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

私のところでは、User-Agentを見て、"Yeti"や"Baiduspider"の文字列があるとエラー(400)にして弾いています。ログ解析のAWStatsでの統計だと70%がロボットでした。
This helps us prevent automated spamming.
スパム防止にご協力を!!