Иногда роботы могут маскироваться под роботов Яндекса путем указания соответствующего User-agent. Вы можете проверить, что робот действительно тот, за кого себя выдает, с помощью проверки обратного адреса электронной почты (reverse DNS lookup).
Для этого необходимо выполнить следующее:
- Для интересующего User-agent определите IP-адрес по логам вашего сервера.
- По IP-адресу определите доменное имя хоста с помощью обратного DNS-запроса.
- Проверьте, принадлежит ли хост Яндексу. Имена всех роботов Яндекса заканчиваются на
yandex.ru,yandex.netилиyandex.com. Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу. - Удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS-запрос (forward DNS lookup), чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, использованным при обратном DNS запросе. Если IP-адреса не совпадают, это означает, что полученное имя хоста поддельное.
Также проверить, принадлежит ли робот Яндексу, можно с помощью инструмента Проверка IP-адреса.
IP-адреса, используемые Googlebot и другими роботами Google, регулярно меняются, поэтому их нельзя перечислить полностью. Вместо этого Google публикует актуальный список диапазонов IP-адресов в специальном JSON-файле.
Где найти актуальные IP-адреса
Официальный и наиболее надёжный источник — документация для разработчиков Google:
- Список диапазонов IP-адресов Googlebot:
https://developers.google.com/search/apis/ipranges/googlebot.json
Зачем нужна проверка IP-адреса
Вебмастерам может понадобиться проверить IP-адреса для следующих целей:
- Идентификация настоящих ботов. Чтобы отличить настоящего робота Googlebot от злоумышленников, которые маскируются под него. Поддельные боты могут расходовать ресурсы вашего сервера, сканировать конфиденциальные данные или вредить SEO.
- Настройка файрвола. Для точной настройки правил, которые разрешают или блокируют определённые IP-адреса.
- Отладка и анализ. Для анализа журналов сервера и понимания, как Googlebot сканирует ваш сайт.
Как проверить, что это Googlebot
Google рекомендует два способа проверки, чтобы убедиться, что визит на ваш сайт совершил именно его робот:
- Обратный и прямой DNS-запрос. Этот метод самый надёжный. Выполните обратный DNS-запрос для IP-адреса, чтобы получить его доменное имя (например,
crawl-66-249-66-1.googlebot.com), а затем выполните прямой DNS-запрос для этого доменного имени, чтобы убедиться, что он совпадает с исходным IP-адресом. - Сравнение с JSON-файлом. Для автоматической проверки вы можете сопоставить IP-адрес сканера с диапазонами IP-адресов из официального JSON-файла.
Важно
- Список IP-адресов регулярно обновляется, поэтому, если вы используете его для автоматической проверки, необходимо ежедневно обновлять файл.
- Большинство запросов Googlebot поступает из США, но для локального сканирования могут использоваться IP-адреса и из других стран.
Вы также можете идентифицировать Bingbot по IP-адресу, сопоставив IP-адрес сканера со
списком IP-адресов Bingbot .