[E戻る]
サイト情報等・あれこれひとり言


Yahooを検索拒否 . ワームと遭遇 . いらつく検索エンジン . googlebotがやってきた . リンクについて思うこと . リンクの注意事項 . 再配布等
管理人 名前:04mat・技術系サラリーマン。現在は、計測器関係のメンテナンスを中心に仕事しています。
魚座・O型
情報発信基地彩の国
webサーバ 自宅サーバ:VIA C3 933MHz
(旧サーバ:MMXペンティアム166MHz 結構非力なマシンです。やっと更新)
上記のソフト OS:FreeBSD . WEB:apache . MAIL:qmail
回線 usen:BROAD-GATE01 Type V マンション ベストエフォート16Mbps(上下とも)
ADSLと比較して上り速度が速いのがサーバにとってありがたい。
(下100M上50Mになりました:実力は20Mくらい)
家庭内LAN パソコン7台くらい 他(9月中に1台処分し損なった)・20年以上前の8Bit機(Off_Line)もあります。
ホームページ
作成ツール
EmEditor フリーのテキストエディタで、タグの手打ちです。
デジカメ1 マクセルの小さいの(35万画素)で結構気に入っています。
デジカメ2 オリンパス(300万画素)
アルバム作成ソフト マクセルデジカメのバンドルソフト Mr.photo21 結構使いやすい。
自作html編集ソフト 上記アルバムの出力htmlを一括して編集してます。
自作100の質問回答ソフト  その名の通りです。

G
Yahooを検索拒否(2005. 2. 18)

[現在は解除]

yahooの検索ロボット(Yahoo! Slurp)に対して、画像関係のほとんどのディレクトリを立ち入り禁止にしました。
yahoo以外ではK国の一部検索ロボットを完全拒否を行っています。

  自サイトを検索サイトで上位表示させるための姑息な手段として、「検索エンジンスパム」があるそうです。 サイトの見た目としては現れないキーワードを多量に埋め込む方法です。

  文字を最小サイズにしたり,1ピクセルの画像に属性としてキーワードを多量に書き込んだりして、 見た目には見えないのですがソースには沢山埋め込んであって検索エンジンに読み取らせる手法ですね。

  最近「Yahoo」で当サイトが検索されなくなりました。完全に削除されたようです。

  色々調べていると、「検索エンジンスパム」にぶつかりました。 説明としての項目に以下のものがありました。

  「情報をほとんど公開していないにもかかわらず、自動的にまた大量に作られているページ

  当サイトは、当然「検索エンジンスパム」であるはずはありませんが、サイト構成が、 yahooの新型エンジンに嫌われた可能性が大なのです。 写真アルバムを中心とするWebサイトなので、同じようなhtmlが多量にあります。

  サイトの構成
写真のアルバムを作るため、1枚の写真に3枚のjpegと2枚のhtmlを用意しています。

  サムネイルを集めたインデックスページ(ここに多数のリンクがあるので"index,nofollow"としています。)
 ・128ピクセルのサムネイル
 ・720ピクセル程度の中間サイズの画像
 ・1984ピクセルの最大サイズの画像
 ・中画像表示用html
 ・大画像表示用html

  もちろん、多量でほとんど同じ内容のため自動処理で作成していますので、上記の項目に当てはまりますね。

  このファイル構成は、画像表示用htmlによって<前・戻る・次>と画像の切替を可能としているので単純なhtmlが多量にあり、 それぞれにタイトルとかが書いてあるので「検索エンジンスパム」と判定されたかなと考えています。

  こちらとしても単純なhtmlを検索されては膨大な検索記録が残るだけなので、 検索拒否をページ内に記述しています。 が、しかし、Yahooのロボットは無視して勝手に検索して行きます。

  訪問者よりロボットの方が多いくらいなのです。
Yahooロボットがどのファイルを見たかは、ログに残っています。(msnbotも無視しています。) ページの構成を変えてインデックスを変更した時、過去のhtmlを直接検索しに来て多量のエラーログを残してくれました。 やはりインデックスを参照していないのでインデックス内に書いてある検索拒否("index,nofollow")を見ていないですね。

そして「検索エンジンスパム」判定かな?
なんて自己中なロボットだ。

  復活を目指しての自衛策として、Yahooのロボットには強行手段でインデックスページ以外のhtmlを検索禁止にしました。 これで「自動的にまた大量に作られているページ 」を無視してもらえれば、復活の可能性があるかな。

  googleロボットはちゃんと検索拒否に応じてくれているのに。

  さて、いつの日か復活できるやら。

 
G
ワームと遭遇(2004. 4. 18)

自サイトを見に行ったら、反応がありませんでした。直前までは異常なかったのに!
メールサーバも反応しません。
そこでディスプレイをサーバに切り替え、直接サーバのログを見たら"default.ida"が最後にあり、その時刻はまさに今でした。
これは"CodeRed"によるもので一日に2〜3回の攻撃がありますが、特に実害はないので(そう思っていた)そのままにして
いましたが、サーバの負荷が増えることが分かりました。
また"NULL.IDA"のログを残すワームも最近来ていたので、とりあえずログを別に設けて様子を見ることにしました。

G
いらつく検索エンジン(2004. 4. 4)

ここ2週間の総リクエストの60%をある検索エンジンが占めています。 そこはどうやら有料登録の検索サイトようです。
サイト登録は有料の癖に検索は傍若無人に行うとんでもないサイトですね。
訪問者よりロボットのほうが多いサイト管理人の愚痴でした。

G
googlebotがやってきた(2003. 11. 12)

WEBサーバは、どんなアクセスがあったか記録を残しています。 最近は出来るだけ、さあっと見るようにしていますが、ある日かなりしつこいロボットを 見つけました。
普通検索エンジンのロボットは、最初に"robots.txt"と言うファイルを探して無かったら ページ検索を実行します。
検索されるのがいやならば、"robots.txt"を置いておきます。
サイトを作っている以上検索はして欲しい訳でそんな無粋なファイルは作っていません。

そいつは10/29 15: 57: 32 にやってきました。
普通はインデクスのページを検索したら戻っていくのですが、そいつはしつこく 11/1 0: 2: 56 に最後のファイル検索を終了するまで、約56時間に渡ってファイル検索をやっていました。
その後11/8 9: 33にIPアドレスの上位3バイトが同じ検索ロボットがやって来ました。
あまりにも気になったので、nslookupで調べると***.***.av.comであることが分かったのでwhoisでさらに 調べて見ました。
一寸むかついたので、そのIPアドレスは閲覧禁止にしてしまいました。
その結果は、たっぷりのエラーログを残してくれました。
いったいなんだったのだろう?

さて今度は、変わった検索をしているロボットを見つけました。
例によって"robots.txt"を検索した後、IPアドレスの上位3つが同じで下が違うやつが、検索しています。
しかも16個ものアドレスが記録されています。
気になったので、nslookupしてみると"googlebot"でした。

やっと”googleのロボットがやって来た。”. 他の検索エンジンにはサイト登録したこともありますが googleはあえてサイト登録をしていませんでした。
右も左も”リンク・リンク・リンク”、”フリー素材も使用条件はリンク”になったのはgoogleの影響が 大きいと思っています。

"04mat"で検索して、photo.soom.jpが検索されるのは何時になるのだろう。


G
リンクについて思うこと

インターネット上の情報はある意味で共有財産なので、自由にリンクを張ることは許されるべきだと 考えます。

たとえば”温度と湿度”について文章を書いているときに、関連データやグラフのページがあれば、 そのページにリンクを張って説明を補足できるでしょう。
直接そのページでなければ意味を持ちません。
トップページにリンクしたのでは、先人の努力を生かすことが出来ません。
もっともネット上には間違い情報も溢れているので、リンク先に間違いがあっても責任の一端はリンク元にもあるでしょう。

だた著作権も常に発生しているので注意が必要です。
個人のホームページにリンクするのは特に注意が必要だと思います。
”リンクに関する注意書き”があればそれに従う必要があるでしょう。

"リンク自由"または"リンクフリー"とかかれていれば、連絡しなくても可。
でもリンク後に、リンクしたURL・リンクを張ったURL・トップページのURLをメールか掲示板で連絡 するのが良いと思います。
万一”不許可”の連絡があれば、リンクを削除するのが適切と思われます。


G
当サイトへのリンク

当サイトでは、どのページにリンクしていただいても、リンクする方の自由とします。
ページの追加・変更・削除は当方の自由となるので、突然リンクきれが発生するかも知れません。
(回線メンテナンス・サーバエラー等で半日くらい平気でダウンします)
ページへのリンクの連絡をしていただいた方には、ページ削除の連絡は差し上げるつもりでいます。

決してリンク連絡を拒否している訳ではありません。連絡していただけると、とてもうれしいです。

<img>タグでのリンクは厳禁とさせていただきます。
このタグの場合、そのページに訪問があると訪問者の意思に関係なく、当方のサーバからデータが流れることになります。
データのサイズが大きいため、サーバが悲鳴を上げてしまいます。

 自動リンクプログラム(CGI)等でバナーを登録するとほとんど<img>タグになるので、人気サイトだとバナーだけの参照アクセスが非常に多くなりますね。


G .
再配布等

写真・文書等に関しては、著作権は特別な明記が無ければ04matにあるので、再配布・利用は原則禁止です。
利用に関して、メールでの連絡を必要とします。
また許可出来るか・出来ないかは、当方の判断とさせて頂きます。
(個人のパソコンの壁紙に使用する場合だけは許可不要です。)

”自由素材”に置いてある素材は、自由に使っていただけます。
リンクも許可も不要で、ホームページでの利用も出来ます。
2次加工も自由で、2次加工したものに付いては配布も可能です。
(写真素材ですみに”名前を入れただけ”などの加工はだめです)

[Homeに戻る] . [PageTopに戻る]
郵便受 . 苦情・ご意見・感想はこちらの郵便受けに入れてください。
Copyright (c) 2002-2003, 04mat all rights reserved.