Владелец сайта, который планирует развивать свой бизнес, в первую очередь стремится сделать контент интересным для пользователей, но и соответствие алгоритмам поисковиков (ценность и ревалентность материалов) никто не сбрасывает со счетов. Для этого необходимо определить – какие страницы должны индексироваться (сделать к ним открытый доступ), а какие – нет.
Причины ограничений на доступ к определенным страницам можно определть так:
- Страницы содержат технический контент: он неинтересен ни роботу, ни пользователю.
- Страница является административной: профессиональная информация интересна только веб-мастеру (и конкурентам-злоумышленникам).
- На странице присутствует материал, который может быть оценен роботом как клоакинг (дублирование): зачем попадать под риски со штрафными санкциями на весь проект?
- Необходимо снижать нагрузки на сервер (или оптимизировать краулинговый бюджет). Поисковый робот сканирует определенное количество страниц ресурса, и не факт, что индексации будут подвергаться нужные (ценные, качественные) страницы. Решение - закрытие определенного контента от сканирования.
Также существуют страницы, которые лучше никогда не делать открытыми для индексации. И вот почему:
- Страницы, которые находятся в разработке. Сырой контент или его отсутствие – только лишний повод для фильтров «задуматься» и сделать неправильные выводы. Для решения проблемы я опробовал массу сервисов, и теперь для ограничений использую пароль или несколько простеньких файлов (например, мета-тега noindex или robots.txt).
- Копия сайта. Неправильная настройка – указание зеркала – приведет к неприятным сюрпризам. Первый – вы не сохраните рейтинг своего проекта. Второй – робот не сможет правильно определить – где первоисточник и аналог. Решить данну. Проблему можно достаточно просто: есть атрибут rel= "canonical" и 301 редирект на зеркало. Тогда и проект открыт для индекса, и возраст сайта сохранен, и наработанная репутация остается на прежнем уровне.
Что не стоит делать доступным для индексации:
- Страница печати: она интересны только посетителю, и является дублем основной версии. Вам нужно, чтобы робот определил ее как приоритетную? Нет? Тогда закрывайте ссылку на страницу в robots.txt или с помощью метатегов (например, <meta name="robots" content="noindex, follow"/>). А материалы выводите через AJAX.
- Страницы с дополнительными материалами – файлами DOC, XLS, PDF: только лишняя головная боль для робота (ха-ха, чему там болеть?).
- Различные формы и блоки для пользователей. Всевозможные формы для регистрации, подачи заявки, шаблоны для доставки товаров, личный кабинет – информация, которая интересует только одного, конкретного пользователя, но неинтересна поисковику или другим посетителям.
- Техническая информация проекта. Она интересна и полезна только для администратора или взломщика для входа в админку.
- Страница с персональными данными посетителя. Номер платежной карты, электронного кошелька или телефона – конфиденциальная информация, которую нужно обязательно защищать.
- Сортировочные страницы. Если поисковой робот оберется до страниц с одинаковой структурой, он оценит контент как дублирование или спам, а результат – дикие санкции на весь ресурс.
Не стоит препятствовать индексации страниц пагинации. Да, поисковый робот будет метаться по всем страницам и проиндексирует конечные страницы (не важно, что это – статьи или товары). И есть риск, что лимит на посещение вашего ресурса будет израсходован на маловажные страницы, но тут поможет настройка атрибутов rel="next", rel="prev", rel="canonical", после чего производятся настройки в параметрах URL (смотрим в Google Search Console) для разбивки страниц. Как вариант – если есть время и вдохновение – сделать целенаправленную оптимизацию страниц.
Зонтик от индексации
Закрыть одну или несколько страниц от индексации можно несколькими методами.
Первый вариант – если необходима блокировка даже при наличии внешних ссылок на конкретный объект (страницу/страницы). Это использование метатега robots со значением noindex в html-файле. Как результат – для робота в заголовке <head> прописываем <meta name="robots" content="noindex, follow"/>, и поисковик обходит соответствующий html-документ стороной.
При отсутствии внешних ссылок (это нужно обязательно проверять самостоятельно) на раздел сайта, который хотим закрыть, и предварительной корректировке внутренних ссылок (не забываем – они есть всегда) можно использовать следующий метод – блокируем индексацию с помощью файла robots.txt.
К примеру, так:
- User-agent: * имя поисковика
- Disallow: /catalog/ # URL (частичный или в полном объеме) закрываемой страницы.
В третьем варианте мы используем документ с конфигурацией .htaccess: ограничение индексации определяется паролем – к нужным страницам могут попасть только определенные пользователи (например, администратор или собственник ресурса).
Для этого просто указываем Username тех пользователей, которым открыт доступ к документам: использую файл паролей .htpasswd с указанием пути к нему при помощи специального кода.
И четвертый метод – удаляем URL в специальной форме на сервисе веб-мастера. Если, например, сайт заточен под Google, в Search Console убираем страницу из результата поиска в разделе Индекс Google с обозначением причин своих действий (в данном случае – удаление).
Как итог: можно, конечно и проигнорировать управлением индексацией. Но это очень важный процесс в SEO-продвижении: ведь нас интересует не только оптимизация перспективных разделов или локализация бесполезного (для продвижения) контента. Нас еще интересует и экономия ресурсов поисковика, и минимальное время на индексацию всего проекта… Нет?