site:検索とYahoo!SiteExplorerとサイト内検索のインデックスの不思議

SEO対策を行っている皆様は、
サイト更新時やページ追加時のYSTのインデックスについては
気になる方も多いかと思います。

サイト内のページがどれぐらいインデックスされているか、
それを当サイトのモデルにして調べてみました。

 

すると、面白いことがわかりました。

 

 これに気づいたのはYahooブックマークを見ていたときです。
当サイトはブックマークされてるかな?と調べたら2件ありました!

喜んでブックマークページを見ていたら、そのページの右の
「このページにリンクしているページ」に見慣れないページがありました。

 

 

【SEO分析ブログ: スパムアーカイブ】

 

 

「このページにリンクしているページ」の情報は「link:URL」の情報です。
ここで「続きをYahoo!検索で見る」をクリックすると、
「link:URL」の情報ページにジャンプします。

また、このlink:コマンドは、対象ページにリンクされているページがわかる特殊検索です。
“link:http://blog.seo-pulse.com/”で検索すると、
SEO分析ブログのトップページにリンクされているページがわかります。

 

 

このときに
「あれ?おかしいな。このページはサイト内のページだけど、インデックスされていたかな?」
と思ったんです。

そして、site:検索をしてみました。
ページはインデックスされていませんでした。

そこで、Yahoo!SiteExplorerで調べてみました。
ここでもインデックスはされていない。

 

おかしいですよね?
ブックマークの「このドメイン内のページ」にあるということは、
Yahooのデータベース上に存在するはずなんですよ。

でないとこんな情報出てこない。

 

 

う~んと頭を悩ませて「SEO分析ブログ」でYahoo検索をしてみたんです。
そして一番目の当サイトの結果内容の「このサイト内で検索」をクリック。

 

すると、上のリンクでわかるかと思いますが、
「SEO分析ブログ: スパムアーカイブ」インデックスされていたんです!

 しかも、

site:検索・・・3ページ
Yahoo!SiteExplorer・・・3ページ
サイト内検索・・・7ページ

 

面白いですよね。

 

 

まず、わかったことは、site:検索とYahoo!SiteExplorerは
完全ではない、ということです。
SEO分析ブログ: スパムアーカイブ」でYahoo検索すると、
ちゃんと一番目に表示されていました。
インデックスはされている、ということです。

 

 

・・・

 

 

 

この検索システム完全じゃないじゃん!笑

もしかすると、site:検索やYahoo!SiteExplorerは
普通の検索と引っ張ってくるデータベースが違うのか?
いや、そんなこと言ったらキーワードによって検索結果のキャッシュの日付も変わってくるし、
とはいえキャッシュの中身は日付が違っても同じだし、
キャッシュ日付が過去にさかのぼる事もあるし、
そもそもデータベースは一元管理のはず、
とはいえWebサーバは分散運用でキャッシュもサーバによって変わってくるし、
大体キャッシュされてもその日付より3日後に表示されたりもするし・・・
謎だらけです。

・・・キャッシュって何?という状況になっています。笑
インデックスの話を始めたら、いつの間にかキャッシュの話に変わってるんですよね。笑

 

もしかすると、全ページにHITするキーワードでのサイト内検索が
一番確かな情報なのかもしれませんね。。。

 

役に立つ情報ではありませんでしたが、今日はここまで。

 

コメント (4) »

  1. 仲居 一平: 2007/12/3 月曜日13:18:12

    きちっと計ったように行かないのが、手作りの温かみを感じる
    ことができて良いのでは(笑)

    そんなのんきなこと言ってる場合ではありませんが、なるほど
    直接ブログタイトルをきっちり入れて検索する結果が一番確実
    なのでしょうか?(笑)

    でも、どう考えても検索時に見に行くデーターベースが違う
    ような気がしてなりませんね。

    Yahoo!(YST)って、もともとM&Aによる検索エンジンの買収により成り立つ出自を持っているから、それらのDBを統合しつつも
    それぞれのアルゴリズムを尊重させているのだ!という仮説を読んだことがあります。

    その目的は、「不公平是正」・・・

    つまり、常に上位表示のメリットを一部のサイトにだけ継続して
    与え続けるよりも、それはそれとして尊重しながらも、定期的に
    複数のエンジンのアルゴリズムをローテーションさせることでインデックス更新させる。

    そうすると、巷で定期的に発生している検索順位の入替えが起きて
    不公平是正になる・・・というものです。

    山本さん、これって本当だと思われますか?

    目的が「不公平是正」かどうかはわかりませんが、定期的に順位
    変動を故意に起こすメリットってあるのでしょうか。

    Yahoo!はYSTとyahoo.co.jp用の検索クローラー「Y!J」他、
    数個の検索ロボットが独自に収集したデータによるアルゴリズム
    改ざんを各国のYahoo!に認めている・・・というのは聞いた
    ことがあります。

    これプラス、故意のアルゴリズム改ざんをしてまで得られる
    メリットとデメリットをYahooはどう考えているのでしょうか?

    山本さんの現象はひょっとして・・・複数のDBを抱えるYahooの
    特殊事情なのでしょうか?

    うわ~!なんかわかったようなこと言っちゃってます(笑)
    おそらく山本さんの頭にはすべて入っている情報だと思います
    ので、ちょっとコメントください。

    お待ちしてま~す!

    仲居 一平

  2. bosabosabosatsu: 2007/12/4 火曜日0:18:41

    ありがとうございます☆
    仲居さんのコメント、とても勉強になりました。
    お恥ずかしいですが、あまり知らない情報でしたよ!(^^;;

    自分の知恵と知識をフル稼動させて、
    答えさせて頂きます。w

    「不公平是正」についての考えですが、
    まず、この仮説を立てられた方がどのようなキーワードを
    追っていて紐付けたかが気になりますね。
    やはり、歴史的観点だけでは仮説は立てづらいと思うんです。

    私が見ているキーワードは1000万ページ未満の
    キーワードが多いですが、
    その中でも特に100万ページあたりだと、
    変動があっても一位を取り続けているサイトが多いです。
    私の考えは、「不公平是正」はないという見方ですね。

    アルゴリズムの改ざんですか・・・
    得られるメリットがあるとしたら、
    順位を定期的に変えて、SEOに頼るサイトに対して
    カテゴリ登録や、有料広告登録をさせることなどでしょうか?笑

    デメリットはYahoo離れですかね~?
    もしYahooがキーワード「楽天」で、
    楽天が一位に表示されないようなアルゴリズムのミスを犯したら・・・?笑
    精度を疑いますよね。

    DBについての話は、昔ある方とメールさせて
    頂いたことがあります。
    参考になるかわかりませんが、
    内容を記載させて頂きますね♪
    (かなりマニアックです。)

    -----ここから-----
    このキャッシュの日付の違いを、
    複数のDBではなく、複数のWebサーバ(キャッシュ含)での
    分散運用の結果だと考えてみてはいかがでしょうか。
    この分散というのは、ミラーリング(ホットスタンバイなど)ではなく
    負荷分散のクラスタリングのことです。

    DBサーバがひとつとしても、クライアントまでの間に
    APサーバ、Webサーバなどが間に挟まっていると思います。

    そして検索システムは、クライアントにとっては
    参照系のシステムですので、Webサーバに
    キャッシュを設けてDBサーバまでアクセスさせないようにし、
    負荷を減らしているのではないかと考えています。
    もちろん、トランザクションを発生させるような更新系システムでは
    このようなキャッシュでの運用は出来ませんが、
    参照系システムであれば最新のものでなくても可能だという考えです。

    そしてYSTのような大規模なシステムになればなるほど
    そういった設計をするものと考えています。

    WebサーバがA~Zの26個ある場合、
    地域によってA~Zのどのサーバにアクセスさせるかを判定したり、
    検索ワードによってA~Zのどのサーバにアクセスさせるかを判定したりしているのではないでしょうか。

    ですから、そのA~Zのキャッシュ情報(検索結果)は
    地域や検索ワードによって変わってくるというのが私の考えです。

    YSTは、メインのDBのインデックス情報がある程度書き換わったことを確認してから
    各Webサーバのキャッシュを更新しているのではないでしょうか。
    そしてその更新のタイミングはWebサーバによってまちまちだから
    日付の違いや結果の違いが生まれてくるのかな、と思います。

    windowsのコマンドプロンプトで
    nslookup search.yahoo.co.jp
    と入力すると、
    IPアドレスが6個出てきます。
    このIPアドレス毎に複数のWebサーバを分散させていて、
    それぞれキャッシュを持っていると考えていいかと思います。

    検索ワードによってキャッシュの日付が変わったり、
    例えば11/4のキャッシュ情報が11/10の6日後に表示されるという
    日付のずれというものはこの分散運用の仕組みにあるのかと考えています。

    -----ここまで-----

  3. 仲居 一平: 2007/12/4 火曜日3:03:56

    非常にきめ細かい回答、有り難うございます。

    なるほど、そうなんですね。
    実際に特定のキーワードを定期的に追いかけて推移を細かく
    分析されているので、いただく回答に説得力を感じます。

    ネットワーク管理と同じで、SEO対策って絶対日頃のログ収集
    とその経緯分析の中からしか、答えを導き出すことはできない
    ですね。

    問題なく運用できている時の数値があるから、異常時にどれだけ
    ”異常”かと、どこが”異常”かがわかるのと同じような気が
    します。

    改めて山本さんの日頃の分析姿勢みたいなものが、今日のこの
    回答で少し見えたような気がします。

    私も山本さんの爪の垢でも煎じて飲ませていただかないとダメ
    ですね(笑)

    一位付近のTOPサイトは不動なのですね。

    TOPだと順位づけしてから、ある時TOPではありませんと位置づけて
    しまうと、やはりおかしいですね(笑)

    100%SEO頼りの中身の無いサイトならあり得ますけど・・・
    不動のTOPに君臨しているサイトは、コンテンツが半端でなく
    充実している状態が普通だと思います。

    というか、そうであって欲しいと(笑)
    最近特に思います。

    メールの内容は、すさまじく濃いですね。
    すごいブレーンをお持ちなのですね。

    昨日読んだ記事で、日本国内での年間サーバー出荷台数はGoogleの
    保有するサーバー台数の2/3にも満たないそうです。
    すさまじいサーバの台数でGoogleは世界を管理しようとしている
    という内容です。

    また、バックリンク元のIPを分散させることでより広範囲の地域
    から支持されるサイトを演出しようとしているとも書いてありました。

    http://japan.cnet.com/blog/taikyokuka/2007/11/30/entry_25002375/

    2002年から2006年の5年間で24倍の急成長を遂げたGoogleは、その
    成長を下支えする為に、運用しているサーバー台数が、100万台を
    超えているそうです。

    ちなみに日本の年間出荷サーバ台数は約60万台・・・(笑)

    YahooもおそらくGoogleほどではないでしょうが、程度的には
    同じくらいのシステムで分散管理しているのだと思います。

    100万台近いサーバーで地球上の全ての情報を扱おうとすると、
    「ひずみ」みたいなものが、どうしても出てきてしまうのでしょうね。

    IBMのメインフレームを100万台そろえれば、問題は解決するので
    しょうが(笑)

    結果、山本さんの公開していただいたメールのような問題は運用上
    発生してしまう・・・

    分散管理能力が、昨今のインターネット依存社会の爆発的な拡大で
    追いついていないのでしょうね・・

    こんな話をすると、コンテンツをちょっと充実させたところで、
    世界規模の分散管理上、鼻くそくらいのレベルの話なのでしょうか(笑)

    でも、毎日こつこつ、昨日の星野JAPANの中継ぎ投手陣みたいに
    ストライクを投げ続けることしか無いのでしょうね。

    たくさんの気づきを有り難うございます。

    仲居 一平

  4. bosabosabosatsu: 2007/12/5 水曜日9:46:13

    その記事は見たことがあります!

    個人には個人のやり方がありますよ~。
    SEOと言っている時点で検索エンジンに頼ってるわけですし・・・
    リアルの世界の話ですが、
    私は地方で頑張っている小売店さんなどを見ると、
    応援したくなりますね♪
    自分ひとりじゃ生きていけないわけだけど、
    地球上の全ての人と関わることができないのが人生ですよね。
    ネットの世界もそういうものではないでしょうか?

    私はコンテンツというのは自分を投影していると思うんですよ。
    コンテンツとは、人との繋がりが生まれるひとつの方法なのだと思います。
    Webサイトって、目的が何であれ「人に見てもらう為のもの」ですからね。
    ECサイトでも、情報サイトでも、日記でも、何でも人に見てもらうことが前提ですから。

    匿名のコンテンツでも、見る人が納得したり満足したり、
    勉強になったり何らかの価値を生んでくれていればいいな~と思います。
    匿名であろうが実名であろうが本質を見失わないことが大事だと思います。
    決して鼻くそではないはずです!笑

    こんなことを言えるのも、自分のサイトが成功したことがきっかけですけどね。
    平均ページビュー15ページ以上、直帰率10%台のサイトを作れたときに、
    匿名サイトだけど皆が満足してくれているサイトが出来た、
    キーワード選定が出来た、と自分の糧として蓄積できました。

    このSEO分析ブログのそのようなサイトになれるよう頑張ります。

    分散運用の面でも、Googleの凄さは舌を巻きますね~。
    Yahooはシステム設計に難があるのかもしれません。
    まぁ私もそんなシステム作ったことないのに偉そうなこと言ってますが。笑

コメントをどうぞ




コメント