Ссылка на оригинал статьи Winka

 

Шаг 5. robots.txt

Составляем файлик, который будет указывать поисковым роботам как именно они должны проиндексировать сайт.
В индекс Гугля попало некоторое количество динамических ссылок нашего сайта. Я не стал писать кучу редиректов для них в .htaccess, а просто запрещу их индексацию в robots.txt. Статические ссылки проиндексируются, а динамические постепенно из индекса уйдут.

Все динамические ссылки сайта имеют вид /?page=ХХХХХ поэтому правила для всех роботов будут такими:
Код:
User-agent: *
Disallow: /?page=
Disallow: /index.php?page=

 

Робот Яндекса понимает также директиву Host, которая определяет, какое из зеркал считать главным (т.е. в данном случае какой адрес "главнее" - с www или без него). Основным сайтом будет ваш_url(примечание: писать без добавления http:// или www). Добавляем:
Код:
User-agent: Yandex
Disallow: /?page=
Disallow: /index.php?page=
Host: ваш_url

 

Ну и одна непроверенная гипотеза (практически слух) говорит о том, что робот Гугля не любит "быть как все" и часто плюет на правила, если про него забывают и валят в кучу с остальными роботами. Не стану обижать малыша и пропишу для него персональные правила 🙂

В итоге файл robots.txt выглядит у меня следующим образом:
Код:
User-agent: *
Disallow: /?page=
Disallow: /index.php?page=

 

User-agent: Googlebot
Disallow: /?page=
Disallow: /index.php?page=

 

User-agent: Yandex
Disallow: /?page=
Disallow: /index.php?page=
Host: ваш_url

 

Его и запишем в коренной каталог сайта.
Осталось пройтись по основным русскоязычным поисковикам и сообщить о своем существовании. Остальные сами подтянутся.

Продолжение следует...

От dmitry

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *