20:44 Как правильно заполнить файл Robots.txt | |
№1. Простой вариант заполнения Robots.txt Сегодня я Вам расскажу как правильно заполнить текстовый файл Robots.txt. Это обычный текстовый файл, который можно создать и отредактировать (изменить содержимое) в блокноте Windows. Он Располагается в корневой теке сайта - http://yoursite.ru/robots.txt. Главное его предназначение - это задавать определённые директивы поисковым системам - что и когда делать на сайте. Самый простой robots.txt, который всем поисковым системам, разрешает всё индексировать, выглядит вот так: User-agent: * User-agent: * Существуют две основные директивы: Disallow – запретить Allow – разрешить Пример: На блоге мы запретили индексировать папку /wp-content/ где находятся файлы плагинов, шаблон и.т.п. Но так же там находятся изображения, которые должны быть проиндексированы ПС, для участия в поиске по картинкам. Для этого надо использовать такую схему: Google относится проще и выполняет все директивы файла robots.txt, вне зависимости от их расположения. Так же, не стоит забывать, что директивы со слешем и без, выполняют разную роль: Disallow: /about Запретит доступ ко всему каталогу site.ru/about/, так же не будут индексироваться страницы которые содержат about - site.ru/about.html, site.ru/aboutlive.html и.т.п. №3. Регулярные выражения в файле robots.txt Поддерживается два символа, это: Пример: Disallow: /about* запретит доступ ко всем страницам, которые содержат about, в принципе и без звёздочки такая директива будет так же работать. Но в некоторых случаях это выражение не заменимо. Например, в одной категории имеются страницы с .html на конце и без, чтобы закрыть от индексации все страницы которые содержат html, прописываем вот такую директиву: User-agent: Yandex Пример: Disallow: /about - Эта директива robots.txt запрещает индексировать все страницы, которые начинаются с about, так же идёт запрет на страницы в каталоге /about/. Добавив в конце символ доллара - Disallow: /about$ мы сообщим роботам, что нельзя индексировать только страницу /about, а каталог /about/, страницы /aboutlive и.т.п. можно индексировать. №4. Директива Sitemap В этой директиве указывается путь к Карте сайта, в таком виде: Она предназначена только для Яндекса, потому что он с помощью неё определяет главные зеркала сайта и склеивает их по ней. Про склейку сайтов, в обеих поисковых системах, читайте в моём посте - Как я склеивал сайт в Яндексе и Google. Указывается в таком виде: После того, когда были добавлены все нужные директивы, которые описаны выше. Вы должны получить примерно вот такой файл robots:
Sitemap: http://cospi.ru/sitemap.xml №7. Мета-теги robots Существует возможность закрыть от индексации страницу или сайт не только файлом robots.txt, это можно сделать при помощи мета-тега. №8. Директива Crawl-delay С помощью этой директивы можно задать время, на которое должен прерываться поисковый бот, между скачиванием страниц сайта. Для обычных сайтов/блогов эта директива не нужна, но можно таким образом ограничить поведение других не актуальных поисковых роботов (Rambler, Yahoo, Bing) и.т.п. Ведь они тоже заходят на сайт и индексируют его, создавая тем самым нагрузку на сервер. №8. Проверить robots.txt Чтобы проверить robots.txt для Google, надо зайти в панель вебмастер:
| |
|
Всего комментариев: 0 | |