На заре своего существования Интернет еще не обладал большим объемом информации. Количество пользователей Сетью было тоже совсем невелико.
Однако со временем возникла необходимость в оптимизации доступа к информации, содержащейся в Интернете, благодаря чему в 1994 году на свет появился проект под названием Yahoo.

Данный проект подразумевал создание каталогов сайтов, в которых ссылки на сайты были сгруппированы по различным темам. Однако этот проект еще совсем мало был похож на современные поисковые системы.
Первой поисковой системой в привычном для нас понимании стала WebCrawler.

На сегодняшний день основными мировыми поисковиками являются Google, Yahoo, MSN Search.

В российском Интернете этот список представлен следующими поисковыми системами: Яндекс, Google, Mail.ru, Aport, Rambler, KM.ru.

Бесспорно, самыми популярными из них являются Яндекс и Google.    
   
Структура поисковых систем

Различные поисковые системы содержат одинаковый состав входящих в них основных элементов, а именно, поле поиска, кнопка поиска, список найденных результатов.

Структура поисковой системы представлена комплексом следующих программ.

Робот spider (паук), целью которого является просмотр страниц сайтов, предназначенных для индексации.

Робот crawler (путешествующий паук). Его функция заключается в поиске новых и неизвестных системе ссылок и добавление их в список индексации.

Индексатор обрабатывает страницу очереди, стоящей на индексацию.

База данных хранит различную информацию необходимую для выведения результатов поиска.

Система обработки запросов и выдачи результатов. Алгоритм ее работы сводится к следующему: во-первых, принять от пользователя запрос на поиск какой-либо информации, во-вторых, обратиться с этим запросом к базе данных, в-третьих, вывести пользователю полученный результат.
 
Фильтры поисковых систем

Рассмотрим отдельно фильтры, применяемые поисковой системой Google и системой Яндекс. Однако следует понимать, что такое разграничение имеет весьма зыбкие границы, так как в той или иной степени большинство из нижеперечисленных фильтров частично присутствует в каждой из этих двух поисковых систем.


Фильтры, предусмотренные системой Google.

Фильтр “Песочница” (Sandbox). Под этот фильтр попадают все новые сайты и могут находиться, в так называемой “песочнице”, от трех месяцев до нескольких лет. Страницы таких новообразованных сайтов не выводятся в результатах поиска по высокочастотным запросам.

Однако по запросам с низкой частотностью могут выдаваться поисковой системой. Одной из особенностей этого фильтра является то, что сайты из “песочницы” выводятся не по отдельности, а целыми группами. Достаточно быстрый вывод сайта из “песочницы” может быть обеспечен благодаря большому количеству ссылок на этот интернет-ресурс.

Фильтр “Дополнительные результаты”. Те страницы сайта, которые попали под данный вид фильтра, будут выводиться в результатах поиска только лишь в тех случаях, когда не будет хватать основных, так называемых,  “хороших” страниц.
Фильтр “Bombing”. Под этот фильтр сайты попадают по причине неуникальности анкоров в ссылках.

Фильтр “Bowling”. Опасность попадания сайтов под этот тип фильтров может угрожать исключительно интернет-ресурсам, TrustRunk которых низкий. Попадание сайта под этот фильтр может быть умышленно спровоцировано конкурентами.
Фильтр “Возраст домена”. Причина попадания под фильтр – недоверие поисковой системы новым доменам.

Фильтр “Дублирующийся контент”. Для сайта очень важно наличие на своих страницах уникального контента. Если на интернет-ресурсе используется большое количество краденой информации, то есть скопированной с других ресурсов, то сайт окажется под данным фильтром.

Фильтр-30. Этот фильтр получил свое название благодаря тому, что понижает сайт на тридцать позиций в том случае, если на веб-ресурсе применяются черные методы продвижения (дорвеи, редиректы с помощью JavaScript).

Фильтр “Опущенные результаты”. Сайт может оказаться под фильтром из-за скопированного с других ресурсов контента, из-за недостаточного числа входящих ссылок, дублирующихся заголовков и других meta-тегов. Кроме того, дополнительной причиной может являться недостаточная внутренняя перелинковка страниц сайта.  

Фильтр “Социтирование”. Причиной действия этого фильтра на интернет-ресурс может являться то, что на него ссылаются сайты совершенно иной тематики.

Фильтр “Links”. Чтобы избежать действия данного фильтра, не следует заводить у себя на сайте страницу, предназначенную для обмена ссылками с партнерами. Это не поможет повысить сайт в результатах выдачи поисковой системы, а только нанесет вред.

Фильтр “Много ссылок сразу”. Чтобы миновать данный фильтр, необходимо воздержаться от приобретения для сайта большого количества ссылок за достаточно короткий период времени.

Фильтр “Чрезмерная оптимизация”. Причина попадания сайта под фильтр является использование на нем чрезмерного количества ключевых фраз с высокой степенью плотности.

Фильтр ”Битые ссылки”. Избежать действия фильтра можно при условии, что ссылки не будут вести на страницы, которых не существует.

Фильтрация страниц по времени загрузки. Как уже понятно из названия, фильтрация в данном случае обусловлена слишком долгой загрузкой страницы.

Общий фильтр “Степень доверия” (Google Trust Rank). Фильтр учитывает такие факторы, как качество перелинковки, число исходящих ссылок, количество и авторитетность входящих ссылок, возраст домена и др. Для повышения позиций сайта в выдаче поисковой системы необходимо повышать Trust Rank.


Фильтры, предусмотренные системой Яндекс.

АГС. Благодаря этому фильтру из поисковой системы исключаются сайты, предназначение которых заключается в поисковом спаме.

Непот-фильтр. Интернет-ресурс может пострадать от этого фильтра за ведение торговли ссылками с сайта, из-за чего сайт засоряется большим количеством таких ссылок.
Редирект фильтр. Этот фильтр наказывает сайты за применение javascript редиректов.
Фильтр плотности ключевых слов. Чтобы избежать действия фильтра, необходимо избегать чрезмерной концентрации ключевых слов и фраз на сайте.

Фильтр “Ты последний”. Причина действия фильтра лежит в обнаружении поисковой системы дубля страницы.

 
Принципы ранжирования в поисковых системах

Ранжирование – это вывод сайтов на страницах поисковых систем в определенной последовательности в ответ на какой-либо запрос пользователя. Принято выделять внутренние и внешние принципы ранжирования. Рассмотрим каждую группу по отдельности.

Внутренние принципы ранжирования. Внутренние принципы ранжирования подчинены действиям владельца сайта.

Они учитывают:
объем информации на странице сайта;
количество, плотность и расположение ключевых слов и фраз на странице интернет-ресурса;
стилистику представленного на странице текста;
наличие ключевых слов в теге Title и в ссылках;
содержание ключевых слов в мета-тегах Description;
общее количество страниц сайта.

Внешние принципы ранжирования учитывают:
Индекс цитирования (оценивает популярность сайта).
Ссылочный текст (внешние ссылки, которые ведут на сайт).
Релевантность ссылающихся страниц (оценка информации ссылающейся страницы).
Google PageRank (теоретическая посещаемость страницы).
Тематический индекс цитирования Яндекс (авторитетность сайта относительно других близких ему интернет-ресурсов).


Добавление информации о сайте (самбит) в каталоги общего назначения, каталог DMOZ, Каталог Яндекса.

Обмен ссылками между сайтами.

Таким образом, мы представили некоторую информацию, касающуюся специфики работы поисковых систем. Однако следует учесть тот факт, что алгоритм их работы претерпевает различные изменения, поэтому информация о поисковых системах является весьма динамичной и требует постоянного анализа со стороны seo-специалистов.

Наверх