PREV | PAGE-SELECT | NEXT

≫ EDIT

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

| スポンサー広告 | | comments(-) | trackbacks(-) | TOP↑

≫ EDIT

【ブログアフィリエイトで稼ぐ】googblebotを知ろう!

アメリカのGoogle公式ブログでGooglebotについて説明されてますが、
英語で説明されているので、簡単に日本語で要約しようと思います。


1、 Googlebotのヘッダーは常に共通ですか? 国によって違うヘッダーを使いますか?
基本的には全世界でヘッダーは共通ですが、
AdSenseの場合は"User-Agent: Mediapartners-Google"になって、
Image検索の場合は"User-Agent: Googlebot-Image/1.0"になります。


また、ワイヤレス(携帯)の場合は、キャリア固有のユーザーエージェントになります。
また、セッション固有の情報に影響されたくないので、Cookieはみません。
従って、ヘッダーにはCookieヘッダーはありません。
もし、サーバーが動的(ダイナミック)URLの中にセッションIDを利用している場合は
Googlebotはそのことを理解します。
そのため、同じページをセッションIDが違うからという理由で
何百万回も見に行くことはしません。


2、 Googlebotのヘッダーは"Accept: */*"になってますが、
  すべてのURLをインデックスするのですか?
  それともある種の拡張子のファイルはフィルターしてインデックスしないのですか?


インデックスするファイルタイプは、どのような情報をGooglebotが探しているかによります。
通常のウェブページをインデックスをしているときはMP3や動画ファイルは、
基本的にはダウンロードしません。
また、JPGに関してはHTMLやPDFとは別に扱います。
というのは、JPGはHTMLと比べて更新が多くないので、
チェックする回数はHTMLに比べて少なくしています。


また、Google Scholar用に学術関連の情報を探しているときは、
JPGよりもPDFを重視してインデックスします。
もちろん、イメージ検索用の情報を探しているときはJPGを重視します。


また、exe,dll,zip,dmgなどはサイズが大きすぎる傾向にあるうえに、
検索エンジンにとってそれほど有益とは思えません。


3、 知らない拡張子のファイルはどうしますか?
例えば、 http://www.example.com/page1.LOL111のようなURLの場合です。
とりあえずダウンロードした後で、Content-Typeヘッダーを見てHTMLか、画像か、テキストかそれ以外のタイプのファイルであるかを確認します。


もし、PDFやWord、Excelといったファイルの場合、
フォーマットに問題ないかを確認してテキスト情報を抽出します。
もし、mp3のようなインデックスをしないタイプのファイルであれば無視します。


4、 GooglebotのヘッダーにあるAccept-Encoding: gzip,deflateはなにを意味してますか?
googlebotはサーバー側で、gzipやdeflate機能を有効にしている場合は、
その形式でファイルをダウンロードします。
圧縮された形式でダウンロードするほうが回線を有効に利用できるからです。
また、Googlebotはdeflateよりgzipのほうを好みます。


5、ということは大きなフラッシュ・ファイルや画像を沢山利用している場合、
  圧縮したほうが早くクロールできるようになりますか?


話はそう単純には行きません。
swf(フラッシュファイル)やjpg、png、gif、pdfといったファイルは既に圧縮されているからです。


6、 robot.txtについて教えてくれますか?
普段は、 "User-Agent: * Allow: /" にしているサイトが、
都合によって"User-Agent: * Disallow: /"にしたりすると、
既にインデックスしたコンテンツを破棄しなければいけなりますので好ましくありません。


通常、robots.txtは1日1回以上はチェックしないので、
それほどクローラーの訪問を気にする必要はないと思いますが、
もしクロールの回数をコントロールしたい場合はrobots.txtではなく、
Webmaster Toolsでクロール・レートを"slower"に設定してください。


★ブログアフィリエイトでインスタントに稼ぐ入門書 TOPへ★
スポンサーサイト

| SEO対策 | | comments:0 | trackbacks:0 | TOP↑















非公開コメント

http://instantblog8.blog25.fc2.com/tb.php/31-4ed3ce1a

PREV | PAGE-SELECT | NEXT

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。