▼ Вход

Настройка файлов .htaccess и robots.txt

Настройка файлов .htaccess и robots.txt

Файлы .htaccess и robots.txt ("аштиакцесс" и "роботс") – системные конфигурационные файлы, в которых содержатся директивы (параметры, команды, рекомендации) касательно пользовательских настроек веб-сервера, перенаправлений (редиректов) и индексации страниц поисковыми роботами. Оба файла имеют свои особенности, но обязательны к использованию.

Функциональные возможности и настройки файлов .htaccess и robots.txt подробнейшим образом описаны в сотнях обучающих инструкций Рунета. Оба документа настраиваются индивидуально под каждый сайт, каждый движок (CMS).

В этой статье опишем основные возможности и настройки .htaccess и robots.txt. Расскажем о директивах, используемых при технической оптимизации сайта.

Дочитав статью, вы не станете программистом, но разберетесь в правилах использования .htaccess и robots.txt на реальных примерах. Узнаете, как управлять сайтом, сервером (хостингом) и поисковыми роботами.
 

Настройка файлов .htaccess: основные тезисы и правила


1. Названия файлов .htaccess всегда идентичны и начинаются с точки.

2. Действие правил (команд) .htaccess распространяется на директорию/каталог, в которую помещен файл, а также на вложенные папки и файлы.



3. На одном сайте может быть сколько угодно .htaccess, разнесенных по файловой структуре сайта. Но в одной директории/папке хостинга используется только 1 файл с командами.

4. Чтобы настройки файла распространялись на весь сайт, вложенные папки и файлы, необходимо поместить .htaccess в корневую директорию (верхнюю папку вашего сайта, главную директорию домена в файловом менеджере хостинга).

5. Файл .htaccess содержит пользовательские настройки, действующие только для веб-серверов Apache. С помощью этого файла настраиваются редиректы, серверные параметры и зеркала сайта, страницы авторизации и ошибок, кеширование и сжатие, особенности индексации поисковыми роботами и пр.

Перед настройкой директив убедитесь, что работа файла поддерживается на вашем хостинге/сервере с системой Apache!

Изменения .htaccess действуют только локально и не затрагивают конфигурационного файла веб-сервера.

6. Файлы .htaccess можно создавать и редактировать самостоятельно в стандартном "Блокноте" Windows, но лучше использовать специализированные программы вроде Notepad++. При сохранении кодировки UTF-8 в файле не должно быть BOM-сигнаруты, и поэтому применяется Notepad++.

Не пугайтесь сложной терминологии. Просто запомните, что для создания и редактирования .htaccess нужно использовать бесплатную программу Notepad++ (скачайте ее из интернета).

7. Если после создания, правки, размещения файла на сайте возникает ошибка 500, что-то не так с настройками .htaccess. Устраните ошибки, иначе сайт не сможет нормально работать.

8. Защитить содержимое файла от посторонних вмешательств можно через настройки прав доступа. Зайдите в файловый менеджер хостинга или по FTP, отыщите настройки прав доступа нужного файла .htaccess и установите атрибут "444" (только чтение для всех без исключения).

Но для внесения правок вам придется сменить атрибуты на "644" (администратор – возможность правки, все другие – только чтение). Права "444" полностью закрывают файл от несанкционированного редактирования или взлома.

9. Для каждого движка директивы и количество файлов .htaccess будет разным. Читайте документацию своей CMS.

10. По запросам "проверка .htaccess онлайн" и "генератор .htaccess онлайн" найдете в Яндексе/Google соответствующие сервисы проверки и генерации, работающие в реалтайме.

11. Отыскать настройки .htaccess для решения конкретных задач можно в любой поисковой системе.

12. После внесения изменений в файл обязательно сохранить результат, иначе настройки аннулируются.

13. При просмотре корневой структуры сайта по FTP вы можете не увидеть .htaccess, т.к. он скрыт. Зайдите в настройки FTP-клиента и активируйте показ скрытых файлов.

14. В корневом документе .htaccess настраиваются редиректы 301, а также страницы ошибок 401, 403, 404, 500.

При переезде на защищенный протокол HTTPS, смене домена, удалении страниц и изменении URL-структуры, вам также придется корректировать редиректы в "аштиакцесс".

15. После окончательной настройки сайта советуем скачать и сохранить корневой конфигурационный .htaccess на компьютере. Резервная копия (а лучше – полный архив файловой структуры вашего сайта) поможет восстановить веб-ресурс в случае краха или ошибок.

Большинство вирусов и мошенников вносят правки именно в корневом файле .haccess, и при возникновении проблем загляните сюда в первую очередь.


 

Простейшие команды .htaccess (примеры)


1. Редирект 301 – используется для перенаправления пользователей и роботов со старой или удаленной страницы (page.html) на новую (new_1.html):

Redirect 301 /page.html http://www.site.ru/new_1.html

Редирект не сработает для динамических адресов, в которых есть знак вопроса ("?", Query String). В этом случае используйте второй вариант:

Options +FollowSymLinks
RewriteEngine On
RewriteCond %{QUERY_STRING} ^test=123$ [NC]
RewriteRule ^one/$ http://site.ru/ [L,R=301]

Теперь, если пользователь запросит страницу с относительным адресом /one/?test=123 то попадет на главную site.ru (замените на свой домен и свои URL).

2. Редирект страниц ошибок. Используется, чтобы подменить стандартные страницы ошибок на те, которые вы создали сами:

#401 Авторизация не выполнена
ErrorDocument 401 http://site.ru/401.html
#403 Доступ запрещен
ErrorDocument 403 http://site.ru/403.html
#404 Страница не найдена
ErrorDocument 404 http://site.ru/404.html
#500 Внутренняя ошибка сервера
ErrorDocument 500 http://site.ru/500.html

Только предварительно нужно создать соответствующие страницы HTML, разместить их на сайте и скорректировать адрес редиректа. Проверьте заранее, что новые страницы открываются по URL в настройках.

Кстати, закрыть страницы ошибок от индексации можно в файле robots.txt командами:

User-agent: *
Disallow: /401.html
Disallow: /403.html
Disallow: /404.html
Disallow: /500.html

3. Редирект 301 со страницы "www.site.ru" на "site.ru" (с WWW на без WWW):

RewriteEngine On
RewriteCond %{HTTP_HOST} !^site\.ru$ [NC]
RewriteRule ^(.*)$ http://site.ru/$1 [L,R=301]

Редирект работает и для других синонимов домена. Поскольку правило имеет высокую важность, его лучше поставить в начале файла .htaccess.
 

Настройка файла robots.txt: основные тезисы и правила


1. На сайте может быть только 1 файл robots.txt, который всегда расположен в корневой директории (верхний уровень каталожной структуры).



2. Проверить наличие robots.txt и посмотреть его содержимое можно по адресу URL:

http://ваш_домен.ru/robots.txt

Содержимое файла открыто для просмотра. Можно взглянуть на robots.txt любого сайта из интернета. Если браузер выдаст ошибку, то файл отсутствует.

3. Если robots.txt после установки движка на сайте отсутствует, его нужно создать вручную с помощью программы Notepad++ или "Блокнота" Windows.

4. Проверить корректность работы robots.txt можно в Яндекс.Вебмастере. Выбираете сайт – меню "Инструменты" - "Анализ robots.txt".

Также в случае проблем с файлом, Яндекс.Вебмастер выдает ошибку в меню диагностики, призывая вебмастера внести изменения.

5. Директивы robots.txt – это первое, на что обращает внимание поисковый робот (бот, паук, краулер) при посещении сайта.

6. Файл robots.txt содержит рекомендации для поисковых роботов – какие документы и каталоги индексировать, какие – нет. Подробности далее...
 

Директивы файла robots.txt


Файл конфигураций для поисковых ботов нужен хотя бы затем, чтобы поисковик не проиндексировал и не выложил их в общем доступе системные закрытые документы с логинами, паролями, именами баз данных, личной информацией ваших клиентов или лог-данными.

С помощью robots.txt вы управляете поисковыми пауками и оптимизируете индексацию через набор директив:

1) User-agent

Здесь имена ботов, для которых предназначен блок директив. Символ звездочки означает "для всех":

User-agent: *

Перечень популярных ботов, которые посещают ваш веб-проект:

Google - Googlebot
Яндекс - Yandex
Rambler - StackRambler
Mail.ru - Mail.Ru
Alexa – ia_archiver

2) Allow или Disallow

Команды звучат как "Разрешить" или "Запретить" соответственно. Allow используется для определения исключений из команды Disallow. Например:

User-agent: *
Disallow: /engine/
Allow: /engine/go.php

Мы закрыли индексацию директории /engine/, но открыли учет вложенного файла /go.php. Команда действует для всех поисковых ботов.



3) Специальные символы

В директивах robots.txt используются относительные адреса URL, плюс, специальные символы для составления шаблонов (масок файлов):

* (звездочка) – для всех, все, любая, любые
$ (доллар) – отменяем действие "*" для исключений и конкретизации
/ (слеш) – вложенная директория, вложенные файлы, относительность адреса
отступ строки – отделяет блоки директив для разных поисковых ботов

4) Host и Sitemap

Директивы считываются только Яндексом и указывают на главное зеркало и карту сайта для роботов. Например (обратите внимание на отступ между блоками):

User-agent: Yandex
Disallow:
Host: site.ru
Sitemap: http://site.ru/sitemap.xml.gz
Sitemap: http://site.ru/sitemap.xml

User-agent: *
Disallow: /engine/
Allow: /engine/go.php

5) Обязательные правила

1. Между "User-agent" и "Disallow" или "Allow" не ставится отступов строк. Строки пишутся слитно, столбцом.

2. Если не присвоить параметры директивам "Disallow"/"Allow", они закроют или откроют для индексации весь сайт соответственно.

3. Запись команд строится по схеме: "директива"-"двоеточие"-"пробел"-"параметр".

4. Каждая следующая директива User-agent начинает новый блок команд и отделяется от предыдущего отступом строки.

5. В рамках блока команды сортируются по длине в выполняются от малого адреса к большему. Если на страницу распространяется сразу несколько команд, используется та, что длиннее других (последняя на исполнение).

Полезные советы вебмастеру

Есть хитрый способ, как подсмотреть базовый файл robots.txt для конкретного движка сайта.

Откройте официальный сайт разработчика CMS и допишите robots.txt через слеш сразу после адреса главной страницы. Увидите типовые настройки официального сайта движка. Например:

1) JOOMLA – https://www.joomla.org/robots.txt
2) DLE (DataLife Engine) - https://dle-news.ru/robots.txt
3) 1C-БИТРИКС - https://www.1c-bitrix.ru/robots.txt
4) WORDPRESS - https://ru.wordpress.org/robots.txt
5) DRUPAL - https://www.drupal.org/robots.txt
6) WIX - https://ru.wix.com/robots.txt

Второй вариант – найти сайт с аналогичной CMS из ТОП-3 поисковой выдачи и подсмотреть его "роботс". Естественно, там будут частные настройки чужого веб-сайта, но смысл директив CMS можно скопировать, заменив URL и домены.

При работе со служебными файлами важно не наделать ошибок! Одно неверное слово, символ или отступ строки, и ваш сайт может заблокироваться для пользователей и поисковых систем.

Проверьте работу системных команд специальными онлайн-анализаторами. Изучите техническую документацию по своему движку (CMS). Используйте фразу "Правильные настройки robots.txt *ВАША_CMS*" для поиска готовых решений в Сети.


Комментарии

Комментарии отсутствуют


Комментировать могут только зарегистрированные пользователи!

Партнерские программы- X-Monitor.ru © 2015-2024 |Обменники|Вопросы|Блог|Добавить ресурс|Реклама|Контакты|Карта сайта