Сегодня, в полдень, команда поисковика Яндекс опубликовала изменённые правила для обработки директивы Allow которая находится в файле robots.txt.
Этот файл предназначен для управления поведением поискового робота на страницах сайта. Существует возможность задать параметры индексирования сайта не только для всех роботов но и для каждого в отдельности.
Директива Allow используется для разграничения доступа к частям сайта или к нему в целом.
Это представлено в примере:
User-agent: Yandex Allow: /catalog Disallow:/ # запрещает всё скачивать, кроме страниц расположенных в '/catalog'
На данный момент её необходимо использовать с учётом порядка, поскольку странице сайта могут соответствовать несколько директив, то будет выбрана первая по порядку появления в User-agent блоке. В дальнейшем от учёта порядка для Allow предполагается отказаться в пользу сортировки по длине URL’a и последовательного их применения. Принятие таких мер позволит поисковой системе Яндекс соответствовать международным принципам применения данных директивы для повышения удобства вебмастеров российских так и зарубежных, при составления файла robots.txt.
User-agent: Yandex Allow: /catalog Disallow: / # запрещает скачивать все, кроме страниц # находящихся в '/catalog' User-agent: Yandex Disallow: / Allow: /catalog # запрещает скачивать весь сайт
Рекомендуется проверить соответствие использования директив allow и disallow согласно новым требованиям.