SEO Оптимизация

-

Индексация Веб-сайта

Любой веб-сайт создается для каких-то конкретных целей: коммерции, предоставления разного рода информации, организации различных форм общения и многого другого. Одно из необходимых условий достижения любой из этих целей - посетители. Чем больше людей посетит коммерческий или корпоративный веб-сайт, тем выше вероятность того, что среди них окажутся потенциальные клиенты и партнеры, работники и работодатели. Чем больше людей будет принимать участие в вашем форуме, тем живее и интереснее может стать обсуждение. Понятно, что случайно на ваш веб-сайт никто не набредет по той простой причине, что его название пока никому не известно (естественно, при условии, что вы не затратили уйму денег на рекламные щиты и объявления в метро). Здесь стоит задуматься: куда обычно идет человек, который желает что-то найти в Интернете? Правильно, в свою любимую поисковую систему. И если ваш веб-сайт проиндексирован наиболее популярными поисковиками, это наверняка увеличит приток посетителей, возможно, даже существенно.

Весьма вероятно, что одного только факта индексации вашего веб-сайта будет недостаточно для организации постоянного потока посетителей, так что впоследствии вам придется озадачиться еще и тем, чтобы в результатах поиска он присутствовал не на 5238-м месте, а где-нибудь поближе к началу, но, тем не менее, правильная подготовка веб-сайта к индексации поисковиками - это первый важный шаг в сторону повышения его популярности. Приведенные ниже рекомендации в основном касаются правильной подачи материала и только слегка затрагивают вопросы позиционирования веб-сайта в результатах поиска.
Часто бывает так, что веб-сайт начинают "готовить к индексации" уже после того, как он полностью готов, Иногда это может привести к серьезным проблемам, поэтому о подготовке к индексации необходимо думать заранее, еще на этапах дизайна и верстки.
Перед тем как углубиться в детали, вкратце опишем процесс индексации. Каждая поисковая система включает в себя программу сбора информации - поисковый робот, который перебирает страницы веб-сайтов по известному только ему алгоритму, находя новые и помещая их в базу данных поисковой системы, а также проверяя уже проиндексированные на предмет изменений. Проиндексировав выбранную страницу, робот выбирает все находящиеся на ней ссылки для последующего просмотра, "продвигаясь" таким образом по иерархии веб-сайта и находя другие, еще неизвестные ему веб-сайты. Некоторые из приведенных в данной статье советов частично опираются на гипотезы, построенные по результатам наблюдений за деятельностью роботов различных поисковых систем.
Теперь перейдем непосредственно к дизайну и верстке веб-сайта. Вряд ли есть особый смысл останавливаться на очевидных вещах наподобие того, что нельзя писать слова вразрядку, не надо расставлять вручную переносы, не рекомендуется без особой необходимости писать слова прописными буквами и тому подобное. Но уже не так очевидно, например, что нежелательно располагать на одной странице слишком много текста, так как это повлияет на положение данной страницы в результатах поиска: чем меньше текста на странице, тем более весомыми покажутся поисковику найденные на ней слова, поэтому слишком объемные страницы рекомендуется разбивать на отдельные странички.
Несмотря на то, что фреймы в настоящее время очень популярны (особенно среди непрофессионалов), их использование в приложении к поисковикам считается моветоном. Раньше поисковые роботы индексировали только текст, находящийся на страницах с описанием фреймов, полностью игнорируя ссылки на внутренние фреймы, из-за чего в старых рекомендациях по построению веб-сайтов всегда можно встретить упоминание об обязательном использовании html-тега noframes. Сейчас эта ситуация изменилась, и фреймы обрабатываются корректно многими поисковиками (хотя, например, Altavista все еще придерживается старых традиций), однако страница с описанием фрейма - это лишний запрос для поискового робота, который не может посвящать все свое время вашему веб-сайту, так что из-за выборки страницы с фреймом он отложит индексирование какой-нибудь другой, более важной, страницы на другое посещение вашего веб-сайта. Кроме того, если в результатах поиска появятся ссылки на внутренние страницы, то пользователь увидит их без фреймового обрамления (разве что вы воспользуетесь стандартным трюком с обработкой http-заголовка Referer, но он работает далеко не всегда). Поэтому, если вы обратите внимание на портфолио серьезных веб-дизайнерских групп, то обнаружите, что фреймами они не пользуются никогда.
Проблему лишнего запроса порождает и использование заставок (splash screen). Это может быть, например, страница с логотипом фирмы и ссылкой "вход" или выбором языка - страница, не несущая информации, но зато требующая лишнего запроса робота и занимающая полезное место в базе данных поисковой системы. Почему бы просто не расположить логотип в одном верхнем углу страницы, а переключатель языка в другом?
Поскольку поисковики индексируют только текст, графика остается невостребованной. Сейчас почти все поисковые системы предоставляют возможность поиска по имени файла изображения, но это не совсем то, что хотелось бы, поэтому для всех изображений рекомендуется проставлять подписи (параметр alt html-тега img). То же относится и к флеш-роликам, на которых сейчас строятся целые веб-сайты. Если вся система навигации вашего веб-сайта построена на флеш-роликах, то робот остановится на первой же странице и не сможет пройти глубже, поскольку не найдет ссылок. В настоящее время поисковая система "Рамблер" умеет выбирать ссылки из флеш-файлов как раз для того, чтобы решить эту проблему, но при создании веб-сайта желательно все-таки ориентироваться на то, что "умеет" как можно большее количество поисковиков. Самый простой метод решения "проблемы флеш" - создать две версии веб-сайта: флеш-версию и html-версию. Таким образом вы одновременно позаботитесь и о тех посетителях, которые не могут пользоваться флеш-версией из-за ограничений браузера или медленной связи.
Не следует забывать, что при выборке ссылок для дальнейшего "продвижения" по вашему веб-сайту робот анализирует html-теги a, поэтому навигация через формы (html-тег form) и яваскрипт* останется для него незамеченной, и пользоваться такой навигацией можно только при условии, что она ведет на страницы, которые не нужно индексировать, либо к этим страницам есть альтернативный доступ через html-теги a.
При проектировании "ссылочной инфраструктуры" веб-сайта следует помнить о том, что некоторые роботы (например, Altavista) не обрабатывают ссылки, содержащие знак ?, которые они считают динамическими. Поэтому, если у вас есть несколько динамических страниц с параметрами, которые вы желаете обязательно проиндексировать, воспользуйтесь, например, внутренними редиректами, которые предоставляет модуль mod_rewrite популярного веб-сервера apache. С помощью одной простой директивы можно сделать так, чтобы ссылка на вашем веб-сайте имела вид /cities/russia/moscow.html, а настоящий запрос выглядел как /cgi-bin/cities.cgi?country=russia&city=moscow.
В ссылках на первые страницы веб-сайтов и на директории желательно ставить в конце символ / (слеш), так как в ответ на запрос вида http://masterhost.ru любой уважающий себя веб-сервер возвратит редирект на http://masterhost.ru/, так же как на ссылку вида http://hostinfo.ru/news возвратится редирект на http://hostinfo.ru/news/. Лишний редирект - это лишний запрос для поискового робота, который зря потратит на него время.
При верстке веб-сайта на каждой странице желательно поместить три основных тега, которые могут существенно повлиять на положение данной страницы в результатах поиска, если в них встречаются слова из запроса.


html-тег title - заголовок страницы, по возможности должен быть уникальным для каждой страницы и не слишком длинным (не больше 20-25 символов). Пример: "<title>Страница Пупкина Василия. Архив умных мыслей. Мысль о смысле жизни</title>".
мета-тег description - описание страницы. Некоторые поисковики также показывают содержимое этого мета-тега в результатах поиска. Пример: "<meta name="description" content="Одна из наиболее умных мыслей Пупкина Василия, записанная со слов автора">".
мета-тег keywords - ключевые слова, по которым, как вам кажется, будут искать данную страницу. Не рекомендуется задавать слишком много слов, а также повторять одни и те же слова, т.к. поисковики все равно отбросят лишнее при индексации страницы. Но зато очень полезно ставить часто употребляемые синонимы. Пример: "<meta name="keywords" content="Пупкин Василий смысл жизни умные гениальные мысли изречения">".
Не все поисковые системы одинаково обрабатывают данные теги (например, "Рамблер" игнорирует description и keywords), но в данном случае лучше рассчитывать на те поисковики, которые "умеют" больше. Помещать какие-то слова в html-комментарии "<!-- -->" в качестве своеобразной замены мета-тега keywords не рекомендуется, так как комментарии поисковиками игнорируются.
Многие поисковые роботы планируют посещения вашего веб-сайта в зависимости от того, насколько много информации несут его страницы, а также насколько часто они изменяются. В связи с этим категорически не рекомендуется выкладывать полупустые страницы "under construction", особенно на длительный срок, иначе потом вам придется очень долго ждать, пока робот не "поймет", что ваш веб-сайт уже давно стал нормальным и заслуживает более пристального внимания.
В каждой поисковой системе неявно заложено некое максимальное количество страниц, которые можно проиндексировать для одного веб-сайта (обычно несколько тысяч). При подходе к этому лимиту поисковый робот почти все свое время, выделенное для обработки вашего веб-сайта, начинает тратить на проверку изменений в уже проиндексированных страницах, а новые добавляет в базу данных все реже и реже. Поэтому, если ваш веб-сайт очень большой, рекомендуется разрешить для индексации только наиболее значимые его части (о том, как ограничить индексацию, см. ниже). Например, для новостного веб-сайта можно разрешать индексацию только новостей за несколько последних месяцев, а поиск в полном архиве новостей организовать "у себя". Вообще, желательно сразу закрывать доступ к страницам, не несущим полезной информации либо меняющим свое содержание или от запроса к запросу или в зависимости от cookies.
Поисковый робот "путешествует" по вашему веб-сайту, руководствуясь своим алгоритмом, вмешиваться в который вы не можете. Единственное доступное вам средство управления действиями робота - это ограничение доступа к различным частям веб-сайта. Каждый "официальный" поисковый робот периодически запрашивает с каждого просматриваемого веб-сайта файл robots.txt, который всегда должен располагаться на самом верхнем уровне иерархии веб-сайта (например, http://hostinfo.ru/robots.txt). Данный файл заполняется в соответствии со "Стандартом исключений для роботов" ("Standard for robot exclusion") - в данной статье даны ссылки на стандарт 1994 года, который априори поддерживается всеми существующими поисковыми роботами. Отсутствие файла robots.txt трактуется как отсутствие ограничений при индексации.
Каждый поисковый робот при запросе к веб-серверу формирует свой http-заголовок User-Agent, так что можно задавать разные ограничения для разных поисковиков. Как идентифицирует себя робот какой-то конкретной поисковой системы, всегда можно выяснить на веб-сайте этой системы (или по логам вашего веб-сервера), но в подавляющем большинстве случаев ограничения задаются для всех поисковиков оптом. Пример файла robots.txt:
User-Agent: *
Disallow: /
User-Agent: Googlebot
Disallow: /search.html
Disallow: /cgi-bin/
Пустые строки являются значимыми и разделяют группы ограничений для разных роботов. Каждая группа должна начинаться со строки с директивой User-Agent, указывающей робота, к которому относится данная группа (символ * указывает на всех роботов, не упомянутых персонально). Далее следует неограниченное количество строк с директивой Disallow, в каждой из которых указывается начало группы ссылок, индексировать которые запрещено. В данном примере в первой группе запрещается индексация всего веб-сайта для всех не упомянутых далее роботов (так как все ссылки любого веб-сайта всегда начинаются с /, даже первая страница). Во второй группе для робота поисковой системы Google запрещается индексация страницы /search.html, а также всех страниц, ссылки на которые начинаются с /cgi-bin/ (например, /cgi-bin/news.cgi или /cgi-bin/map.pl).
Далеко не все поисковые системы настолько минималистичны. Например, робот поисковой системы Google понимает расширенный формат robots.txt (в него входит, в частности, директива Allow для задания ссылок, доступ к которым разрешен, и директива Host для тех случаев, когда robots.txt описывает несколько веб-сайтов, либо один веб-сайт с несколькими "зеркалами".
Частота, с которой робот пересчитывает содержимое файла robots.txt, варьируется от робота к роботу: одни могут считывать этот файл при каждом очередном "набеге", другие - после индексирования определенного количества страницы, третьи - еще как-нибудь, поэтому изменения, внесенные вами в этот файл, робот может получить только через какое-то время.
Также следует помнить, что изменение файла robots.txt не вызывает у робота каких-либо активных действий - он всего лишь обновляет сведения о том, как обращаться с вашим веб-сайтом. Если вы добавили новую директиву "Disallow /some_page.html", а эта страница уже проиндексирована, то из базы данных поисковика она пропадет не сразу, а только после того, как робот решит ее обновить согласно своему графику. Аналогично, если вы удалили какую-то из директив Disallow, то страницы, доступ к которым она запрещала, будут проиндексированы в порядке общей очереди.
Некоторые поисковые системы (например, "Яндекс") позволяют довольно быстро удалить из базы данных ссылку на страницу или группу страниц, если запретить их в robots.txt, а затем подать запрос на удаление из базы через специальную форму.
Если по каким-либо причинам у вас нет права на изменение файла robots.txt, можно воспользоваться специальным мета-тегом robots. Например, "<meta name="robots" content="noindex">" запрещает индексацию данной страницы, а "<meta name="robots" content="nofollow">" запрещает роботу "продвигаться" по ссылкам с данной страницы. В одном мета-теге можно комбинировать несколько команд, например: "<meta name="robots" content="noindex,nofollow">". Некоторые роботы понимают дополнительные команды: например, noimageindex у Altavista запрещает индексацию изображений, а noarchive у Google - сохранение страницы в его кеше.
Также почти все поисковики поддерживают отключение индексации для любого текста, помещенного между html-тегами <noindex> и </noindex>.
В заключение вкратце остановимся на некоторых особенностях настройки веб-сервера, на котором будет располагаться ваш веб-сайт. Если ваш веб-сайт имеет несколько псевдонимов или "зеркал" (например, http://pupkin.ru/, http://www.pupkin.ru/, http://www.pupkin.com), то поисковый робот может оказаться в затруднительном положении. Одни роботы выберут для индексации какой-то из псевдонимов, другие могут проиндексировать разные страницы под разными псевдонимами. Для избежания возможных неувязок рекомендуется выбрать один из псевдонимов в качестве основного и запретить индексацию для всех остальных. Приведем пример файла robots.txt для использования с модулем mod_include веб-сервера apache:
<!--#if expr=" "${HTTP_HOST}" != "pupkin.ru" " -->User-agent: *
Disallow: /
<!--#else -->User-agent: *
Disallow: /search/
Disallow: /cgi-bin/
<!--#endif -->
Не помешает также и обратить внимание на формирование правильного http-заголовка Last-Modified (дата последней модификации). Во-первых, наличие этого заголовка позволит поисковой системе правильно сортировать результаты поиска по дате, а во-вторых, как говорилось выше, многие роботы могут адаптировать свои алгоритмы посещения в зависимости от частоты изменения страниц вашего веб-сайта, так что пренебрегать этим не стоит.
Ну, и не следует забывать об объявлении правильной кодировки в http-заголовке Content-Type, чтобы робот корректно проиндексировал содержимое вашего веб-сайта. Если веб-сайт работает в разных кодировках, которые зависят от портов*, рекомендуется выбрать для индексации только одну из кодировок, а остальные запретить в robots.txt (такой запрет организуется аналогично запрету "зеркал", только вместе с именем домена указывается и номер порта, например: "pupkin.ru:80"). При выборе кодировки для индексации следует ознакомиться с перечнем кодировок, которые поддерживают поисковые системы, в которых вы желаете проиндексировать ваш веб-сайт: например, кодировку utf-8 могут поддерживать не все поисковики, а некоторые могут ограничиваться только кодировкой windows-1251.
И последнее: сейчас модно использовать нестандартные страницы с сообщениями об ошибках, чтобы выдавать понятные сообщения в дизайне веб-сайта. Иногда такие страницы возвращаются как "настоящие", со статусом "200 OK", и из-за этого попадают в базу данных поисковиков. Поэтому в таких случаях всегда формируйте правильный статус для таких страниц (например, "404 NOT FOUND"). Веб-сервер apache позволяет легко это организовать при помощи директивы ErrorDocument.
Естественно, подготовка веб-сайта к индексации поисковиками не ограничивается рекомендациями, приведенными в данной статье, но, тем не менее, они помогут вам сделать первые шаги в верном направлении и избежать многих подводных камней в этом непростом деле.
Разместил: Ars | Дата: 08.06.2007


Рейтинг статьи

Средняя оценка: 5/5Средняя оценка: 5Всего голосов:5

Отлично
Хорошо Нормально Пойдёт Плохо
Нет комментариев. Почему бы Вам не оставить свой?
Вы не можете отправить комментарий анонимно, пожалуйста зарегистрируйтесь.