WordPressで作ったサイトを最適化するためのrobots.txt
Post on:2011年2月14日
WordPressで構築している当サイトのrobots.txtを見直そうと思い、参考にした記事をいくつか紹介します。
[ad#ad-2]
下記は各記事のポイントをピックアップしたものです。
How to Write WordPress robots.txt for SEO
robots.txtファイルは、ウェブを探し回る検索エンジンのロボットに制限を与えるものです。
参考:A Standard for Robot Exclusion
ロボットは自動化されており、サイトのページにアクセスする前に、そのサイトにrobots.txtファイルの存在を確認します。
WordPressにとっては、たとえば管理系のファイルなど検索エンジンには必要ではないコンテンツをもっているため、robots.txtの設置は大切です。また、WordPressで生成したページはカテゴリフォルダ、毎月のアーカイブ、タグ一覧など複数のページから同じページを見つけることができます。Googleはコンテンツの複製を好きではないため、こういったものも阻止するようにします。
User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /comments Disallow: /category/*/* Disallow: */trackback Disallow: */comments Allow: /wp-content/uploads
一行目の「User-agent: *」は全てのロボットを対象に、という意味です。二行目以下の指定は、「/wp-content/uploads」以外は全て「Disallow」で拒否にしました、「/wp-content/uploads」にはコンテンツのためにアップロードした画像が含まれています。
Disallow: /*?* Disallow: /*?
URLに「?」を含むものも拒否にしました。これはパーマネントリンクをカスタマイズし、URLに「?」を含むものはないためです。
Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.gz$ Disallow: /*.wmv$ Disallow: /*.cgi$ Disallow: /*.xhtml$
「.php」「.js」などのファイルも拒否にする必要があります。使用する環境にあわせて、ファイルのリストを修正して利用します。
# allow google image bot to search all images User-agent: Googlebot-Image Disallow: Allow: /* # allow Google adsense bot on entire site User-agent: Mediapartners-Google* Disallow: Allow: /*
サイト全部の対して、Google imageとadsenseのロボットのアクセスを許可します。
# BEGIN XML-SITEMAP-PLUGIN Sitemap: http://zacklive.com/sitemap.xml.gz # END XML-SITEMAP-PLUGIN
最後に、サイトマップファイルを指定します。これは自身のものに変更してください。
[ad#ad-2]
WordPress用のrobots.txtのポイント
- Googleの検索結果で上位に表示されるサイトの「robots.txt」を参考にしてみる。
- WordPressで作ったサイトは重複したコンテンツを作る傾向があるが、Googleなどの検索エンジンはこの重複したコンテンツは好まない。
- robots.txtを設置するのは、ルートにする。
- robots.txtではなるべく「Allow」は使用しない。
User-agent: Googlebot Disallow: /wp-content/ Disallow: /trackback/ Disallow: /wp-admin/ Disallow: /feed/ Disallow: /archives/ Disallow: /index.php Disallow: /*? Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: */feed/ Disallow: */trackback/ Disallow: /page/ Disallow: /tag/ Disallow: /category/ User-agent: Googlebot-Image Disallow: /wp-includes/ Allow: /wp-content/uploads/ User-agent: Mediapartners-Google* Disallow: User-agent: ia_archiver Disallow: / User-agent: duggmirror Disallow: / Sitemap: http://example.com/sitemap.xml
Better Robots.txt Rules for WordPress
30秒で学ぶrobots.txt
robots.txtの主な役割は、サイトの指定されたファイル・ディレクトリへの検索エンジンのロボットのアクセスを拒否し、明示的に特定のファイルやディレクトリへのアクセスを許可することです。そして、基本的にはGoogle, Bingのロボットがサイトに訪問した際に、サイトのどこに行くことができるかを知らせるために使用されます。
また、特定のUAを知らせ、サイトマップを宣言することもできます。
robots.txtの設置
robots.txtはシンプルなテキストファイルで、あなたのウェブサイトでアクセス可能なルートに設置するようにします。
WordPress用のrobots.txt
User-agent: * Disallow: /feed/ Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /trackback/ Disallow: /xmlrpc.php Disallow: ?wptheme= Disallow: /blackhole/ Disallow: /transfer/ Disallow: /tweets/ Disallow: /mint/ Allow: /tag/mint/ Allow: /tag/feed/ Allow: /wp-content/online/ Sitemap: http://perishablepress.com/sitemap-perish.xml Sitemap: http://perishablepress.com/sitemap-press.xml User-agent: ia_archiver Disallow: /
sponsors