インデックスされる仕組み(クローラーの動き方など)

インデックスとは

検索エンジンに記録されたWebサイトの情報のことです。 インデックスには、クローラーが持ち帰えった情報がきれいに整理された上で記録されています。どのWebサイトがどんな情報を持ち、どんな話題を扱っているのかのデータです。これが検索の時に使われます。 検索エンジンは、検索の度に、インデックスを参照し、検索に使用されたキーワードと関係するWebサイトをインデックスから見つけて検索結果として表示します。   検索の対象になるのは、常にこのインデックスに記録されたWebサイトだけなので、記録がないWebサイトは検索の対象から外れます。対象から外れているWebサイトは、もちろんですが、どんなキーワードで検索してもヒットしません。なので、インデックスされるためにはクローラーに来てもらう必要があります。  

クローラーとは

クローラーは、この蜘蛛の巣みたいに張り巡らされたリンクを辿り、存在する様々なWEBサイトの情報をかき集めます。クローラーの仕事はWebサイトの情報を集めてくることでした。 クローラーが集めた情報は検索エンジンのもとに持ち帰られます。検索エンジンは、この膨大な量の情報に見出しと索引づけをしながら記録し、この記録された情報をさしてインデックスと言います。 Webサイトにとって、検索結果の上位表示は何より重要な課題です。上位表示されない限り、誰にも見てもらえないからです。誰にも見てもらえなWebサイトは存在していないも同然です。   検索結果の表示具合を決めているのは検索エンジンです。検索エンジンがどんなふうに働いているのかを知れば、上位表示の傾向を知ることにも繋がります。この二つの用語は、まさに検索エンジンの働きそのものを表しています。だから、重要なのです。  

検索エンジンの仕組み

Googleの検索エンジンが検索順位を決めるまでには以下の3つのステップがあります。それぞれがどんな動きや役目をしているのか説明していきます。

  • クローリング:Googleがあなたのサイトを発見
  • インデックス:Googleがあなたのサイトをデータベースに登録
  • ランキング:Googleがあなたのサイトの検索順位を決める

 

クローリング

Web上には、クローラーと呼ばれる検索エンジンのロボットが巡回している。クローラーは、Web上の全てのページを集めようとしています。 重要なのは

  • クローラーが来て初めて検索エンジンがサイトの存在を知る。
  • 1回巡回しただけでは、ページ情報の一部しか集められない。(ページ情報を正しく読み取ってもらい何でも来てもらう必要がある)
  • 何度も同じページがクロールされることで正確に評価されるようになる。
  • ページ内に貼られているリンクを辿って他ページに移動する。

 

クローラーはどこから来るの?

クローラーは、Webページ上の「リンク」を辿ってやってきます。なので、公開したばかりのWebサイトは、どのWebサイトからもリンクが貼られていない状態、Googleにも情報がいきわたっていない状態なので、クローラーが来ません。クローラーは、リンクからリンクにどんどん移動します。そしてウェブページの情報を集めて、Googleのサーバーに蓄積していきます。  

クロールのプロセス

クローラーは、

  • 過去にクロールした時にゲットしたWebページのリスト
  • Webサイトの所有者から提供された「サイトマップ」に含まれる情報

をもとに巡回を始めます。 なので、1度も巡回した事の無いWebサイトや、サイトマップを提供していないサイトには、クローラーが来てくれないのです。  

クローラーが重点的に確認すること

クローラーは、一度訪れたことがあるサイト、サイトマップが提供されているサイトを訪れて、そこから他のページへのリンクを探します。 その中でも重点的に確認するのが

  • 新しいサイトの情報
  • 今あるWEBサイトの変更点
  • 無効なリンク

です。

  • どのサイトをクロールするか?
  • どのくらいの頻度で?
  • どのくらいのページの情報を収集するか?

は、コンピュータのプログラムが自動的に決めています。  

クロールの頻度を上げることが大事

クロールを沢山してもらった方が、より正確な情報、より最新の情報を持って帰ってもらえます。その結果、質の高い記事・コンテンツが正確に評価されて、検索結果の上位を狙いやすくなると言われています。だから、頻繁にクローラーに呼び込む事は、Webサイトを運営する人にとっては、大きな目標の一つだと思った方がいいです。  

インデックス

クローラーが集めてきたページの情報は、全てGoogleのデータベースに登録されます。このデータベースへの登録のことをインデックスと言い、登録されたデータとは、どのWebサイトがどんな情報を持っていて、どんな話題を扱っているのか、というデータです。 ※これが実際に、検索ユーザーがGoogle検索を使う時に使われるデータになります。   この時に重要なのは、ページ自体を検索エンジンから見て、読みやすいように整えておくことが重要で、検索エンジンはインデックスされた情報をもとに後述するランキングを行うからです。せっかく良い内容が書いてあったとしても、それが検索エンジンにとって読みにくく書かれていると、その内容を適切に評価しにくくなってしまいます。 また、検索エンジンは、検索に使われたキーワードと関係するWebサイトの検索結果に表示される対象となるWebサイトは、常にこのインデックスに記録されたWEBサイトだけなのです。もし仮にWebサイトがインデックスに登録されていない状態だと、どんなにキーワードで検索してもヒットしません。  

あなたのサイトがインデックスされているかどうか調べる方法

Googleの検索窓に「site:あなたのサイトのドメイン」と入力する。 →これが表示されなかった、インデックスされていないと言うこと  

もしもインデックスされていない場合の対処法

Googleのクローラーにあなたのサイトに来てもらう必要があります。そのためには、Googleにサイトマップを送信する必要があります。そうすると、検索エンジンにWEBサイトの構造を把握してもらうことができます。そしてクローラーも巡回するようになり、インデックスに記録されることになります。  

ランキング(検索順位)

Googleはどうやって、検索ユーザーが本当に求めているページがどれか判断しているのでしょうか?それは、Googleでは、200以上の「問い」を立てて、そこから判断しているんです。  

200以上の問いの例

  • キーワードがそのページに何回含まれているか
  • そのキーワードはタイトルに現れているか?それともURLか?
  • キーワード同士隣接して現れるか
  • キーワードの類義語が含まれているか
  • ページを所有するウェブサイトの品質は高いか、低いか、スパムか

など。   最終的に、これらの200以上の要因を組み合わせて、各ページの総合点を算出して、検索結果としてユーザーに提供します。 その問は、驚くことにわずか0.5秒と言われており、その検索順位決定要素のことをアルゴリズムと言います。 Googleのインデックスのシステムは、そのWebページが公開された時期や、写真や動画の有無、などなど、本当に色んな特性に着目しており、さらにナレッジグラフと呼ばれるシステムまで登場しています。 検索順位は、Googleはアルゴリズムを頻繁に変更しているため、何が評価項目になっているのかを知ろうとしても無意味だとも言えます。 ただ、一つ言えることは、Googleは検索ユーザーにとって最も役立つコンテンツが上位に表示されるべきだと考えている。そのため、良質なコンテンツを作り、クローリングとインデックスの最適化を行うことが最も確実なSEO対策だということです。   ※Googleはこの3つ全ての精度向上を頻繁に行っている 今よりももっと検索ユーザーにとって価値のあるサイトが検索上位に表示されるように、Googleは全てを日々改善しています。  

まとめ

検索ユーザーはずべてのWebサイトを検索しているわけではありません。Googleが見つけることができたWebサイトの中から検索しています。 Googleに、あなたのWebサイトを見つけてもらうためには、クローラーというロボットプログラムに情報を収集してもらわないといけません。(クロール)クロールして収集された数十億ものウェブの情報が、Googleの何千もあるマシンに保存されます。(インデックス)検索ユーザーが、あるキーワードで検索したとき、Googleは200以上の問いを要因として総合得点の高いページを、検索結果でより上位に表示させます。 これが検索の基本の仕組みです。  

リダイレクトの設定方法
title属性とalt属性について
パラメータ付URLの対処法