Перед началом сканирования URL-адреса проверяется файл robots.txt. Согласно статистике, озвученной во время конференции сотрудников компании, получить к нему доступ получается не всегда.
Часто это случается по следующим причинам:
- из-за ошибки 5xx в 5 % случаев;
- файл вообще не доступен в 26 % случаев из 100%;
- 69 % приходится на код ответа сервера 200.
Представитель Google объявил, что в первом случае сайт сканироваться не будет.
После публикации итогов конференции на сайте Search Engine Land в Twitter развернулась оживленная дискуссия. Это было связано с тем, что первоначально СМИ информировали веб-мастеров, что Google не будет сканировать сайт, если robots.txt не доступен, но при этом существует. Напомним, что это количество составляет 26 % случаев. По ходу выяснилось, что речь шла об ошибке 5xx и то только в тех случаях, когда это происходит в течение длительного периода времени. Представители Search Engine Lan внесли соответствующие правки в материал.