Владелец сайта, который планирует развивать свой бизнес, в первую очередь стремится сделать контент интересным для пользователей, но и соответствие алгоритмам поисковиков (ценность и ревалентность материалов) никто не сбрасывает со счетов. Для этого необходимо определить – какие страницы должны индексироваться (сделать к ним открытый доступ), а какие – нет.

Причины ограничений на доступ к определенным страницам можно определть так:

  • Страницы содержат технический контент: он неинтересен ни роботу, ни пользователю.
  • Страница является административной: профессиональная информация интересна только веб-мастеру (и конкурентам-злоумышленникам).
  • На странице присутствует материал, который может быть оценен роботом как клоакинг (дублирование): зачем попадать под риски со штрафными санкциями на весь проект?
  • Необходимо снижать нагрузки на сервер (или оптимизировать краулинговый бюджет). Поисковый робот сканирует определенное количество страниц ресурса, и не факт, что индексации будут подвергаться нужные (ценные, качественные) страницы. Решение - закрытие определенного контента от сканирования.

Также существуют страницы, которые лучше никогда  не делать открытыми для индексации. И вот почему:

  • Страницы, которые находятся в разработке. Сырой контент или его отсутствие – только лишний повод для фильтров «задуматься» и сделать неправильные выводы. Для решения проблемы я опробовал массу сервисов, и теперь для ограничений использую пароль или несколько простеньких файлов (например, мета-тега noindex или robots.txt).
  • Копия сайта. Неправильная настройка – указание зеркала – приведет к неприятным сюрпризам. Первый – вы не сохраните рейтинг своего проекта. Второй – робот не сможет правильно определить – где первоисточник и аналог. Решить данну. Проблему можно достаточно просто: есть атрибут rel= "canonical" и 301 редирект на зеркало. Тогда и проект открыт для индекса, и возраст сайта сохранен, и наработанная репутация остается на прежнем уровне.

Что не стоит делать доступным для индексации:

  • Страница печати: она интересны только посетителю, и является дублем основной версии. Вам нужно, чтобы робот определил ее как приоритетную? Нет? Тогда закрывайте ссылку на страницу в robots.txt или с помощью метатегов (например, <meta name="robots" content="noindex, follow"/>). А материалы выводите через AJAX.
  • Страницы с дополнительными материалами – файлами DOC, XLS, PDF: только лишняя головная боль для робота (ха-ха, чему там болеть?).
  • Различные формы и блоки для пользователей. Всевозможные формы для регистрации, подачи заявки, шаблоны для доставки товаров, личный кабинет – информация, которая интересует только одного, конкретного пользователя, но неинтересна поисковику или другим посетителям.
  • Техническая информация проекта. Она интересна и полезна только для администратора или взломщика для входа в админку.
  • Страница с персональными данными посетителя. Номер платежной карты, электронного кошелька или телефона – конфиденциальная информация, которую нужно обязательно защищать.
  • Сортировочные страницы. Если поисковой робот оберется до страниц с одинаковой структурой, он оценит контент как дублирование или спам, а результат – дикие санкции на весь ресурс.

Не стоит препятствовать индексации страниц пагинации. Да, поисковый робот будет метаться по всем страницам и проиндексирует конечные страницы (не важно, что это – статьи или товары). И есть риск, что лимит на посещение вашего ресурса будет израсходован на маловажные страницы, но тут поможет настройка атрибутов rel="next", rel="prev", rel="canonical", после чего производятся настройки в параметрах URL (смотрим в Google Search Console) для разбивки страниц. Как вариант – если есть время и вдохновение – сделать целенаправленную оптимизацию страниц.

Зонтик от индексации

Закрыть одну или несколько страниц от индексации можно несколькими методами.

Первый вариант – если необходима блокировка даже при наличии внешних ссылок на конкретный объект (страницу/страницы). Это использование метатега robots со значением noindex в html-файле. Как результат – для робота в заголовке <head>  прописываем <meta name="robots" content="noindex, follow"/>, и поисковик обходит соответствующий html-документ стороной.

При отсутствии внешних ссылок (это нужно обязательно проверять самостоятельно) на раздел сайта, который хотим закрыть, и предварительной корректировке внутренних ссылок (не забываем – они есть всегда) можно использовать следующий метод – блокируем индексацию с помощью файла robots.txt.

К примеру, так:

  • User-agent: * имя поисковика
  • Disallow: /catalog/ # URL (частичный или в полном объеме) закрываемой страницы.

В третьем варианте мы используем документ с конфигурацией .htaccess: ограничение индексации определяется паролем – к нужным страницам могут попасть только определенные пользователи (например, администратор или собственник ресурса).

Для этого просто указываем Username тех пользователей, которым открыт доступ к документам: использую файл паролей .htpasswd с указанием пути к нему при помощи специального кода.

И четвертый метод – удаляем URL в специальной форме на сервисе веб-мастера. Если, например, сайт заточен под Google, в Search Console убираем страницу из результата поиска в разделе Индекс Google с обозначением причин своих действий (в данном случае – удаление).

Как итог: можно, конечно и проигнорировать управлением индексацией. Но это очень важный процесс в SEO: ведь нас интересует не только оптимизация перспективных разделов или локализация бесполезного (для продвижения) контента. Нас еще интересует и экономия ресурсов поисковика, и минимальное время на индексацию всего проекта… Нет?