Библия интернет-маркетолога - Иван Барчёнков
1. Файл robots.txt.
2. Файл sitemap.
3. Сервис «Яндекс. Вебмастер».
4. Сервис Google Webmaster.
5. HT TP-заголовок X-Robots-Tag[14].
6. Метатег robots.
7. Тег canonical.
8. Метатеги noindex и noscript (правда, с ними сейчас мало кто работает).
Рассмотрим каждый из них, чтобы у вас сформировалось общее представление.
Файл robots.txt – текстовый файл, который создается в блокноте или текстовом редакторе. Размещается на каждом сайте в основном каталоге и открывается по ссылке вида site.ru/robots.txt. Попробуйте открыть любой сайт в сети, набрав адрес по образцу, только замените site.ru на конкретный. Например, https://vk.com/robots.txt или https://www.lamoda.ru/robots.txt.
Такой файл есть на любом ресурсе, независимо от его направленности или типа. Он отвечает за техническую сторону взаимодействия с поисковыми системами. В нем прописаны правила, на основе которых происходит индексация сайта. Внутри каждого подобного файла вы увидите строки кода, который от сайта к сайту немного отличается.
Для примера посмотрите на содержимое файла https://market.yandex.ru/robots.txt. На момент написания книги в нем были следующие строки:
User-agent: *
Disallow: /?
Disallow: /thanks
Disallow: /geo$
Disallow: /ai.xml
…часть информации удалена…
Disallow: /wishlist
User-agent: AdsBot-Google
Disallow: /offer/*
User-agent: AdsBot-Google-Mobile
Disallow: /offer/*
User-agent: Googlebot
Disallow: /?
Disallow: /thanks
Disallow: /geo$
Disallow: /ai.xml
…часть информации удалена…
Disallow: /version/node
Disallow: /wishlist
Clean-param: cmid&grade_value /shop-opinions.xml
Clean-param: cmid&grade_value /shop/
Clean-param: grade_value /product/
Clean-param: local-offers-first
Clean-param: onstock
…часть информации удалена…
Sitemap: https://market.yandex.ru/sitemap.xml
Host: https://market.yandex.ru
Документ делится на несколько смысловых частей за счет следующих директив:
• User-agent (принимает два значения – Disallow и Allow);
• Clean-param;
• Sitemap;
• Host.
Первая директива – User-agent* – указывает, для какого поискового робота предназначены правила, написанные под ней. А знак звездочки – что директива относится ко всем роботам.
Обратите внимание, в файле несколько директив с заголовком User-agent:
User-agent: AdsBot-Google
User-agent: AdsBot-Google-Mobile
User-agent: Googlebot[15]
Каждая из них содержит особый набор правил для указанных после двоеточия роботов. Хотя, конечно, на самом деле у Google роботов больше.
Под директивой User-agent располагается одна из директив: URL Disallow или Allow. Первая запрещает индексировать разделы и определенные страницы, а вторая, наоборот, разрешает.
Далее следует директива Clean-param, в которой перечислены параметры URL страницы, которые нужно игнорировать при индексации. К ним могут относиться как рекламные теги (UTM-метки), так и другие параметры, которые вы используете для своих целей.
Конкретно в этом примере нет директивы Crawl-delay. Она указывает временной интервал между загрузками страниц в секундах. Но ее можно часто увидеть в файлах robots.txt. Например, на сайте pleer.ru:
User-agent: Yandex
Disallow: /*?
Disallow: /*?_openstat
…часть информации удалена…
Crawl-delay: 2
Директива Crawl-delay задается в конце блока User-agent и применяется для контроля скорости обхода сайта каждым из роботов. Это важный параметр, который позволяет контролировать нагрузку на сервер. Если ваш сайт не выдерживает нагрузку от поисковых роботов, заниматься поисковым продвижением нет смысла. Вам обязательно нужен качественный хостинг с возможностью увеличить мощность и контроль нагрузки на сайт с вашей стороны.
Для «Яндекса» лучше использовать настройку скорости обхода сайта в интерфейсе «Яндекс. Вебмастер», поскольку с 2018 года поисковик игнорирует значение Crawl-delay, прописанное в robots.txt.
Далее следует директива Sitemap, указывающая путь к файлу, в котором содержится карта вашего сайта. В каком месте прописана эта директива, неважно, поскольку она не связана с User-agent.
В самом конце файла robots.txt принято указывать директиву Host с доменным адресом вашего сайта, точнее с его главным зеркалом.
Опытный SEO-специалист внимательно изучает структуру сайта и содержимое страниц, которые входят в индекс поисковой системы. Затем формирует корректный файл robots.txt, чтобы запретить поисковым роботам индексировать архивы, дублирующие страницы и прочий ненужный для поисковика контент. Например, нужно исключать из индексации страницы сортировки товаров (по цене, алфавиту и т. д.) в интернет-магазине.
Файл sitemap содержит информацию о структуре сайта, которую вы хотите передать в поисковую систему. Сюда относятся все основные и второстепенные страницы (новости, статьи, страницы товаров и каталога и т. д.). Также sitemap передает информацию о том, когда страница была создана, когда обновлялась, и ее версии на других языках.
Этот файл пишет вручную или формирует под конкретный сайт программист по техническому заданию от SEO-специалиста. Существуют, конечно, автоматические генераторы карты сайта, но не стоит на них полагаться.
К файлу sitemap применяется ряд технических ограничений на объем информации. Например, нельзя размещать более 50 000 строк. Если их больше, нужно делать несколько файлов и объединять их через корневой файл.
В первую очередь sitemap – это составная часть robots.txt, она загружается в приложения для веб-мастеров и в «Яндексе», и в Google.
Чтобы посмотреть пример такого файла, перейдите на сайт, который вам интересен, откройте файл robots.txt и в конце найдите ссылку на sitemap. Она будет выглядеть примерно так:
Sitemap: https://SITE.ru/sitemap.xml.
«Яндекс. Вебмастер» и Google Search Console – сервисы, которые помогают следить за жизнедеятельностью сайта, настраивать поисковую оптимизацию, устранять неполадки. Кроме того, они дают ценные подсказки, какие именно параметры необходимо исправить на сайте, чтобы повлиять на его ранжирование, позиции в поисковой выдаче и многое другое.
После создания сайта нужно зарегистрировать его в этих двух сервисах и связать «Яндекс. Вебмастер» с «Яндекс. Метрикой».
Затем вы сможете передать в поисковую систему базовую информацию о том, какой именно контент представлен на вашем сайте, а также содержимое sitemap, и проверить, как осуществляется индексирование сайта поисковой системой.
Следует понимать, что поисковые роботы так или иначе все равно найдут ваш сайт, если он будет развиваться в сети. Приложения веб-мастеров «Яндекса» и Google нужны скорее для мониторинга процессов индексирования. И через них удобно следить за ошибками, которые находят сервисы. Важно устранять их сразу, как только система о них сообщает, иначе это негативно скажется на рейтинге сайта и поисковой выдаче.
В «Яндекс. Вебмастер» вы можете передать информацию о направленности бизнеса в виде YML-файлов[16]. Это необязательно, но поможет привлечь больше посетителей на сайт. Опция доступна для некоторых категорий предпринимателей (рис. 11).

Рис. 11. Скриншот раздела «Яндекс. Вебмастер», через который можно передать дополнительную информацию.
Если ваш сайт региональный, не забудьте отметить это в «Яндекс. Вебмастер» и «Яндекс. Бизнес». А вот в Google эту информацию следует передавать через Google Business.
Также будет полезно отслеживать показатели эффективности в Google (рис. 12). График показывает, сколько всего кликов и показов было у вашего сайта, а также какой средний CTR и средняя позиция была у семантики[17], по которой Google выводит сайт в результатах поисковой выдачи.
