Сегодня я не буду рассказывать о том, как создать файл robots.txt, сегодня я вкратце отвечу на вопрос многих начинающих вебмастеров, зачем нужен robots.txt и что будет если у меня не будет этого файла?

Поисковые системы индексируют любой сайт, на чей-то сайт они заходят чаще, на чей-то реже. Есть несколько факторов от которых это зависит, создание файла роботс.тхт на это тоже влияет.

Этот файл очень важен. Он помогает поисковому роботу, проникнуть глубже в ваш сайт. Не только на те страницы которые расположены на главной, но и на те которые спрятаны от посетителя. Только при этом, у вас должна быть прописана карта сайта в этом файле:

  • Sitemap: http://site.ru/sitemap.xml
  • Sitemap: http://site.ru/sitemap.xml.gz

Таким образом вы показываете свою карту сайта, он тем временем просмотрит все ваши статьи. Вообще файл robots.txt(примеры здесь) и sitemap.xml это два единственных файла, на который поисковик заходит в первую очередь. Если у вас этих файлов не будет, поисковые системы будут тоже просматривать страницы, но очень медленно.

Так же роботс дает команду, что индексировать, а что нет. Команда Disallow запрещает индексацию. Вы можете благодаря это команде запретить к индексации отдельные файлы, страницы, или даже запретить индексацию отдельного поисковика.

Многие вебмастера хотят что бы их сайт открывался в поисковиках с www или наоборот без них. За это тоже отвечает robots.txt. А именно команда Host:site.ru.

Так же нам не нужно что бы поисковики индексировали системные файлы или папки. Мы должны их в этом файле закрыть от индексации.

Не много о дублировании контента в CMS WordPress. Сам движок разработан так, что когда вы публикуете статью, она попадает сразу в ленту RSS, архивы, рубрики, поиск. И представте, поисковик заметил одну и ту же статью на разных страницах!

Это равносильно тому, что вы взяли и скопировали статью с другого сайта. За такие  действия можно получить АГС.

Поэтому, в файле robots.txt обязательно нужно задать команду Disallow, рубрикам, RSS ленте, поиску, архивам. Для того что бы не возникало дублей контента.

На последок хочется сказать. Что не все поисковые системы относятся к этому файлу как к рекомендациям. К примеру Яндекс только и слушает этот файл и выполняет все его указания. В то время как Google только прислушивается и не всегда выполняет его указание. Как бы там небыло, robots.txt должен быть в каждом сайте.

Виталий Архипов.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>