Почему рискованно не иметь файл robots.txt

26 августа 2011 года   |  Google

В последнем видеоролике на Webmaster Help Мэтт Катс рассказал ответил на вопрос пользователя о файле robots.txt . Вопрос звучал так: “Лучше ли иметь пустой файл robots.txt или содержащий User-agent: *Disallow:” или, может быть, лучше не иметь файла robots.txt совсем?”

«Я бы ответил, любой из двух первых вариантов», — были первые слова Катса. «Совсем не иметь файл robots.txt несколько рискованно, потому что иногда, если у вас этого файла нет, ваш веб-хост отдает страницу 404, а это уже ведет к разным нежелательным ситуациям. К счастью, мы умеем определять это очень хорошо, поэтому это такой риск примерно на 1%».

Однако Катс отметил, что если есть возможность создать файл robots.txt, лучше это сделать, пусть даже совсем пустой или с User-agent: *Disallow и не заполненный. Оба варианта Google воспринимает как полностью равнозначные. Однако личный совет от Катса – использовать вариант с User-agent: *Disallow, который дает поисковику понять, что вебмастер сознательно разрешает роботу индексировать все на сайте. В случае пустого файла можно предположить, что кто-то по ошибке удалил его содержимое.

Примечательно, что, поднимая тему robots.txt, которая после недавних событий с утечками информации в рунете стала притчей по языцех, Катс ничего не говорит о важности этого файла для закрытия от индексации конфиденциальных данных на сайте. Интересно, что думает на этот счет наша читательская аудитория. Какие веб-ресурсы можно отнести к категории сайтов, которым совершенно не за чем закрывать какие-либо страницы от поисковых роботов?

Статьи