Всем привет на wmbn.ru! Сегодняшний пост будет посвящен маленькому, но важному файлу, который поможет в индексации вашего сайта — файл robots.txt. Продвигая сайт нужно учитывать не только написание контента, дизайн шаблона, структуру, но а так же следует создать условия для того, чтобы поисковый робот без проблем смог просмотреть все нужные страницы сайта, не задевая при этом страницы панели администратора и прочие служебные файлы, которые не надо выкладывать на общий доступ. С данным ограничением поможет файл robots.txt, в котором указываются все условия, которым должен следовать поисковый робот при индексации сайта.

Robots.txt — история появления файла для роботов

Robots.txt — это текстовый файл, который загружается в корневую папку сайта на сервере и содержит в себе инструкции для роботов, ограничивающие их пути просмотра страниц сайта. В первые файл появился в 90-х годах по причине того, что поисковые сервисы развивались и каждый их шаг затруднял администраторов сайта тем, что личные страницы, которые не должны были попасть в индекс, появлялись в результатах запроса, что существенно влияло на безопасность.

Следовательно, администраторы искали выход из данной ситуации и вскоре, после соглашения администраторов поисковых систем и сайтов был создан и утвержден файл robots.txt, который будет задавать инструкции для поискового робота, указывая какие файлы можно было индексировать, а какие пройти стороной.

Назначение уже можно понять из истории, однако следует разобрать его немного подробнее. Структура файла на столько интересна, что она позволяет создавать для каждой поисковой системы свои условия посещения с помощью специального разработанного синтаксиса (языка), который будет понятен любому роботу.

То есть можно задать для робота от Яндекса одни инструкции, а для Google другие с помощью лишь выставив в начале строку User-agent:Yandex или User-agent:google. Кроме того, файл robots.txt помогает избежать дублирование контента, т.е. записей, которые повторяются на сайте несколько раз. Происходит это из-за того, что записи сохраняются как в рубрике, так и в архивах сайта — поисковики относятся к данному явлению негативно и могут выставить бан за это, из которого потом выбраться будет очень сложно.

Структура и создание файла robots.txt для сайта

Рассмотрим подробнее структуру файла robots.txt. Основные элементы кода — User-agent, который указывает к какой поисковой системе написаны инструкции, Disallow — запрет на индексирование страниц, которые находятся после данного условия, Allow — страницы, файлы, которые находятся после этого оператора будут доступны роботу для просмотра. User-agent не обязательно ограничивается указанием поисковика, можно задать условия сразу для всех поисковых машин прописав User-agent: *, так как мы не знаем все сервисы, а их в интернете приличное количество и не каждый будет ограничиваться инструкциями в robots.txt для Google.

Разберем на примере готового участка файла остальные инструкции:

User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

Из участка видно, что инструкции написаны для Яндекса (User-agent: Yandex). Далее указана папка, точнее путь до папки, которую робот может индексировать беспрепятственно — Allow: /wp-content/uploads/. Кстати можно указать все файлы и папки для индексирования, задав лишь Allow: *, одноко так делать не стоит, так как это приведет к дублированию. Disallow действует также, как и Allow, только назначение меняется на обратное.

На примере Disallow: /wp-login.php указано,что запрещается индексировать страницу входа в панель администратора. Хотя это вряд ли может оказаться проблемой безопасности — почти все знают как войти в панель администратора, но наказание от поисковика за это можно получить. Так же можно указать такой параметр Disallow: *.htm, что заставит робота обходить все файлы, с расширением htm (это действует и для пункта Allow, но в нем такое написание редко используется). Если задать такое условие — Disallow: /, то сайт не будет индексироваться поисковыми роботами полностью.

Еще два оператора, которые присутствуют в структуре файла robots.txt — Host и Sitemap. Первый нужен для того, чтобы указать главное зеркало сайта ( с www или без него). Затем на панели веб мастера устанавливаем инструкцию для робота, указав, что нужно индексировать сайт с теми параметрами, которые прописаны в файле robots.txt. Это избавит сайт от дублирования страниц при просмотре его поисковыми машинами, особенно это касается Яндекса, так как для него сайты с www и без являются совершенно разными.

Второй (Sitemap) нужен для указания пути до файла карты сайта — sitemap.xml. Конечно, без него робот тоже может обойтись, однако задав путь до карты сайта можно существенно улучшить и ускорить индексацию, задав роботу все страницы сайта в одном месте.

Создание файла robots.txt с помощью плагина

Создать файл robots.txt можно с помощью простого текстового редактора или плагина, который поможет создать файл в корневой директории. В случае с редактором, то тут придется не только создать файл, но затем загрузить его на сервер (с помощью FTP программы или же файлового менеджера, который входит в панель управления Веб хостингом Parallels Plesk Panel). После чего, когда потребуется его изменить, снова придется загружать его и редактировать, что отнимет значительное количество времени.

Исправить данную ситуацию можно с помощью плагина PC Robots.txt. Но не стоит надеется, что он автоматически создаст за вас все инструкции для робота — их вы указываете сами. А преимущество тут в том, что не придется лишний раз загружать файл на ПК и сервер, а делать все прямо на панели администратора.

Проверка файла robots.txt через панель вебмастера

Проверить файл robots.txt можно на странице Яндекс.Вебмастер, однако он даст лишь рекомендации. Для анализа перейдите на страницу вебмастера, затем в списке Настройка индексирования перейдите в пункт Анализ robots.txt. После этого загрузите файл в анализатор и проверьте его. Проверив код, внизу появятся секции, в которых указаны условия для Яндекса, а также путь до карты сайта (sitemap.xml). В случае появления ошибки, ее стоит немедленно исправить и проверить другие участки кода, которые не указаны для Яндекса прямо в анализаторе (там же можно и создать файл).

Какие папки WordPress в robots.txt следует скрыть

А теперь попробуем разобраться в тех файлах и папках, которые не требуются в индексировании. Начнем с файлов — первое, это конечно вход в панель администратора WordPress, то есть файл wp-login.php. Тут ясное дело, что смотреть нечего, кроме как логотип и строки ввода данных. Затем файлы wp-register.php и template.html — судя по названию, то это регистрация и шаблон, скорее всего его структура.

Теперь на счет папок. Тут стоит выбрать только те папки, которые являются служебными или содержат файлы, требующие закрытия. Папка wp-admin — в ней находятся все файлы, которые составляют функционал и структуру панели администратора. Есть также некоторые папки, типа themes (шаблоны), plugins (плагины), которые тоже можно скрыть от робота. Чтобы избежать дублирования контента, пропишите в robots.txt строку Disallow: /archive.

Таких файлов и папок достаточное количество и писать их всех особой пользы не добавит, лучше всего воспользоваться хитростью и посмотреть данные о файле на других сайтах, прописав в адресной строке site.ru/robots.txt, после чего подобрать для себя или создать на основе их свой файл robots.txt.

Не стоит откладывать процесс создания файла robots.txt на другое время, это может навредить вашему сайту и понизить его на странице результатов поисковых запросов. Зачем отдавать ценное время робота на сканирование страниц, для которых совсем это не требуется, тем самым не оставив время на проверку контента, который в первую очередь требует индексации.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>