
В этом посте я постараюсь наглядно объяснить принцип работы алгоритма PageRank.
PageRank представляет собой меру привлекательности конкретной страницы для Google. Чем выше PageRank страницы тем выше ее позиция в результатах поиска среди других похожих страниц.
Основы алгоритма были разработаны Ларри Пейджем во время его учебы в Стендфордском Университете. Позже к работе над алгоритмом присоединяется и Сергей Бринн.
Алгоритм основывается на следующих постулатах:
- Для каждой веб-страницы найдется определенное количество страниц, которые дают на нее гиперссылку;
- Каждая из этих веб-страниц имеет свой PageRank;
- Ссылка со страницы B на страницу A считается одним голосом, отданным B за A;
- PageRank страницы B придает голосу, отданному за A, дополнительный вес. Следовательно, чем выше PageRank страницы B, тем больший вес имеет ссылка с нее;
- Чем меньше число ссылок на странице B, тем лучше это для PageRank страницы A.
Формула PageRank имеет следующий вид:

или

Таким образом PageRank i-ой страницы складывается из суммы PageRank j страниц, дающих ссылку на i-ю страницу, разделенных соответственно на количество ссылок на этих страницах. При этом учитывается коэффициент затухания d. Это вероятность того, что не найдя нужную информацию по первой ссылке пользователь перейдет по следующей. Его величина ˜0,85.
Как эта формула работает на практике? Попробую объяснить на простом примере.
Представим себе что весь Интернет состоит всего из четырех страниц. Назовем их A, B, C и D. Каждая имеет исходный PageRank, равный 1. Если теперь предположить что B, C и D имеют по одной ссылке на страницу А и пренебречь коэффициентом затухания и другими факторами то формула PageRank сведется к простому выражению:
PR(A) = 1/1 + 1/1 + 1/1 =3
В этом случае PageRank страницы А равен 3.
Теперь усложним задачу: страница A имеет ссылки на B и C; B — только на A; C ссылается на A, B и D; D — только на B. В виде схемы это будет выглядеть так:
Формула для А:
PR(A) = PR(B)/1 + PR(C)/3=1/1+1/3=1,33
Формула для B:
PR (B) = PR(A)/2+PR(C)/3+PR(D)/1=1/2 + 1/3 + 1/1=1,83
Для С и D проще:
PR (C) = 1/2
PR (D) = 1/3
Если теперь полученные значения просуммировать, в результате снова получим общее число всех страниц:
1,33 + 1,83 + 0,5 + 0,33 = 3,99
Это значение меньше исходного (4) из-за округления.
На основании вышеприведенного следуют 2 вывода:
- Pagerank рассчитывается не для всего сайта, а для каждой отдельной страницы;
- Стартовая страница не обязательно имеет самый высокий Pagerank (ведь стартовой может быть любая из четырех рассмотреных мною страниц)
Данный пример не включает в вычисления PageRank каждой страницы (приняли за 1). Пересчитаем PageRank для В с учетом новых данных:
PR (B) = PR(A)/2+PR(C)/3+PR(D)/1=1,33/2 + 0,5/3 + 0,33/1=1,62
Если теперь пересчитать PageRank других страниц, получим новые значения, которые будут отличатся от значений полученных на первом шаге. Поэтому PageRank вычисляется итеративно: результаты предыдущего прохода используются для вычисления следующего шага итерации.
PageRank страницы выражает вероятность того, что пользователь, кликнув по случайной ссылке, попадет на эту страницу.
Поэтому реальные значения PageRank страниц находятся в пределах от 0 до 1. Поисковая система использует значения от 0 до 10 – индексы, используемые для удобства восприятия. Нужно отметить что чем выше значение PageRank, тем сложнее его улучшить. Используется логарифмическая шкала, поэтому преодолеть рубеж PageRank между 2 и 3 гораздо легче, чем между 9 и максимальной отметкой 10. Можно придерживаться примерно такой градации: PageRank от 4 до 5 — наиболее типичный для большинства сайтов средней «раскрученности». 6 — очень хорошо «раскрученный» сайт. 7 — величина, практически недостижимая для множества сайтов, но иногда встречается. Значения 8, 9, 10 имеют исключительно популярные и значимые проекты. Например, в данный момент у сайта русской Википедии PR равен 8, у английской Википедии, gnu.org и у сайта Microsoft — 9. Значение 10 имеют всего несколько десятков сайтов. В их числе сам Google. Ранее это были также http://www.whitehouse.gov, http://www.adobe.com, http://w3c.org.
Так что же нужно, чтобы сайт имел высокий PageRank?
Хороший код и хорошее, желательно уникальное, содержание! Под «хорошим кодом» подразумеваются два свойства HTML-кода веб-страницы. Во-первых, он должен быть качественным в отношении синтаксиса, во-вторых, в нем следует употреблять определенные HTML-элементы. Важными для Google являются прежде всего теги <title>, <p>,<strong>, а также теги заголовков <h1>…<h6>. В <title> содержится краткое описание документа. Этот тег необходимо заполнить правильно, разместив в нем только важную информацию. С помощью <p> форматируются абзацы, <strong> позволяет выделить текст жирным, а внутри тегов <h1>…<h6> следует писать заголовки, причем лучше, если они будут повторять ключевые слова, по которым продвигается сайт. Важно использовать заголовок <h1> только один раз, а остальные, например, <h2> или <h3>, чаще.
Ну и напоследок, терпение. С умом размещая ссылки, можно постепенно повышать PageRank, а вместе с тем и популярность своего сайта.
No related posts.
Сенкс. Познавательно