5 Web-файлов, которые улучшат ваш сайт

robots txt

Порой объём кода, ежедневно проходящий через разработчиков, поражает своими размерами. Один и тот же сайт может функционировать на от одной до пяти технологиях, совершенно отличающихся друг от друга (MySQL, PHP, JavaScript, CSS, HTML). В то же время существует целый ряд мало кому известных путей повышения эффективности вашего сайта. В этой статье мы рассмотрим 5 из них. Они довольно таки просты для понимания и применения, так что у вас не должно возникнуть проблем с их внедрением. Результаты вы получите уже очень скоро.

Введение

О каких файлах идёт речь? Выбрать наиболее значимую пятерку было не так то просто, потому что таких файлов очень много (к примеру .htaccess, который мы рассматривать не будем). И все они могут сослужить неоценимую пользу для вашего сайта.

Файлы, речь о которых пойдёт в этой статье, выбирались исключительно по критериям эффективности и простоты внедрения в систему. Ну и, конечно же, степени дешевизны.

Итак, мы рассмотрим файлы: robots.txt, favicon.ico, sitemap.xml, dublin.rdf и opensearch.xml. Данные файлы будут вам полезны в поиске (индексировании), юзабилити и многом другом.

Давайте начнём со знакомого нам файла: robots.txt.
Robots.txt

Главная задача файла robots.txt, это определить какие части вашего сайта не нужно краулерить.

По определению, данный файл выступает в роли «фэйс-контроля» . Если в каталоге веб сайта по умолчанию файл robots.txt отсутствует, то для поисковых механизмов нет никаких преград, они могут свободно сканировать и индексировать информацию.

Запретить индексацию вы можете прямо из HTML документа, при помощи meta тега (). Однако использование одного файла даст вам преимущество в плане простоты добавления, удаления записей и обслуживания.

Заметьте: стоит отметить, что использовать данный файл совсем не обязательно. Но если у вас есть конфиденциальная информация, то это как раз то, что вам нужно.

Создание файла Robots.txt

Всё что вам нужно для создания файла robots.txt так это ваш любимый текстовой редактор. Стоит так же отметить, что вам необходимо сохранить файл с точным именем robots.txt (иначе ничего не получится). Данный файл должен размещаться в корневом каталоге вашего сайта, т.к. по умолчанию поисковые роботы ищут его там.

Далее нам надо написать целый ряд инструкций, по которым поисковые пауки будут действовать. Структура файла robot.txt во многом схожа с CSS. Команды, которые формируют правила, состоят из пары ключ – значение.

Следующая вещь, которую стоит отметить, так это то, что комментарии начинаются со знака #. Не очень удобно для документирования, но что же поделаешь.

Вот пример, который запрещает поисковым роботам сканировать каталоги /members/ и /private/:1 User-agent: *
2 Disallow: /members/
3 Disallow: /private/

В файле robots.txt, в основном значимыми являются только 2 поля (так же существует множество нестандартных, таких как Crawl-delay, но о них позже).

Первое стандартное поле это User-agent. Каждый файл robots.txt должен начинаться с объявления значения для User-agent, которое содержит список поисковых механизмов, которые вы допускаете для индексирования на ваш сайт.

Использования знака * в качестве значения для User-agent означает, что вы разрешаете всем поисковым роботам следовать правилам данного файла; * Означает полное совпадение.

Поле Disallow говорит о том, что доступ по данному пути категорически запрещён. В значении можно писать как каталоги (/myprivatefolder/), так и файлы (/myfolder/folder1/myprivatefile.html).


Источник: http://joomfans.com

Добавить комментарий:
Имя:
E-mail:
2021 © Обсуждение Joomla и других CMS-систем управления сайтами  Правила | О проекте | Обратная связь