Заметки программиста

IP-адреса роботов Яндекса, Google и Bing

Иногда роботы могут маскироваться под роботов Яндекса путем указания соответствующего User-agent. Вы можете проверить, что робот действительно тот, за кого себя выдает, с помощью проверки обратного адреса электронной почты (reverse DNS lookup).

Для этого необходимо выполнить следующее:

  1. Для интересующего User-agent определите IP-адрес по логам вашего сервера.
  2. По IP-адресу определите доменное имя хоста с помощью обратного DNS-запроса.
  3. Проверьте, принадлежит ли хост Яндексу. Имена всех роботов Яндекса заканчиваются на yandex.ruyandex.net или yandex.com. Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.
  4. Удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS-запрос (forward DNS lookup), чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, использованным при обратном DNS запросе. Если IP-адреса не совпадают, это означает, что полученное имя хоста поддельное.

Также проверить, принадлежит ли робот Яндексу, можно с помощью инструмента Проверка IP-адреса.


IP-адреса, используемые Googlebot и другими роботами Google, регулярно меняются, поэтому их нельзя перечислить полностью. Вместо этого Google публикует актуальный список диапазонов IP-адресов в специальном JSON-файле. 

Где найти актуальные IP-адреса

Официальный и наиболее надёжный источник — документация для разработчиков Google: 

  • Список диапазонов IP-адресов Googlebot:
    https://developers.google.com/search/apis/ipranges/googlebot.json

Зачем нужна проверка IP-адреса

Вебмастерам может понадобиться проверить IP-адреса для следующих целей:

  • Идентификация настоящих ботов. Чтобы отличить настоящего робота Googlebot от злоумышленников, которые маскируются под него. Поддельные боты могут расходовать ресурсы вашего сервера, сканировать конфиденциальные данные или вредить SEO.
  • Настройка файрвола. Для точной настройки правил, которые разрешают или блокируют определённые IP-адреса.
  • Отладка и анализ. Для анализа журналов сервера и понимания, как Googlebot сканирует ваш сайт. 

Как проверить, что это Googlebot

Google рекомендует два способа проверки, чтобы убедиться, что визит на ваш сайт совершил именно его робот:

  1. Обратный и прямой DNS-запрос. Этот метод самый надёжный. Выполните обратный DNS-запрос для IP-адреса, чтобы получить его доменное имя (например, crawl-66-249-66-1.googlebot.com), а затем выполните прямой DNS-запрос для этого доменного имени, чтобы убедиться, что он совпадает с исходным IP-адресом.
  2. Сравнение с JSON-файлом. Для автоматической проверки вы можете сопоставить IP-адрес сканера с диапазонами IP-адресов из официального JSON-файла. 

Важно

  • Список IP-адресов регулярно обновляется, поэтому, если вы используете его для автоматической проверки, необходимо ежедневно обновлять файл.
  • Большинство запросов Googlebot поступает из США, но для локального сканирования могут использоваться IP-адреса и из других стран.

Вы также можете идентифицировать Bingbot по IP-адресу, сопоставив IP-адрес сканера со 
списком IP-адресов Bingbot .