Кривые Зипфа и популярность веб-сайтов

Добавлено 05.10.2007 | Якоб Нильсен

Кривые Зипфа выглядят как прямые линии, если их нарисовать на двойной логарифмической шкале. На рисунках, представленных ниже, изображен набор из 300 элементов, подчиняющийся распределению . Обратите внимание, что на правой диаграмме линия, соединяющая все точки, образует прямую (на графике обе шкалы - логарифмические). Большинство графиков, которыми мы пользуемся в жизни, имеют линейную шкалу, поэтому в качестве сравнения на левой диаграмме представлены те же самые данные, но на графике с линейной шкалой по осям.

Линейная шкала
по обеим осям

Логарифмическая шкала
по обеим осям

Одни и те же данные, изображенные на линейной и логарифмической шкале.
Оба графика изображают распределение Зипфа на примере 300 точек.

Из вышеприведенных графиков понятно, что кривые Зипфа при изображении на линейных шкалах имеют тенденцию очень плотно прилегать к осям графиков. Именно поэтому мы обычно рисуем эти кривые на логарифмической шкале, даже несмотря на то, что большинство людей не привыкло с ними работать. Простое описание данных, подчиняющихся распределению Зипфа, таково:

  • Небольшое количество элементов имеет очень высокий рейтинг (левый "рог" диаграммы)
  • Среднее количество элементов имеет средний рейтинг (средняя часть диаграммы)
  • Огромное количество элементов имеет очень низкий рейтинг (правый "рог" диаграммы)

Как показывает практика, распределения Зипфа можно использовать для описания употребления слов в человеческом языке (например, английском) и популярности книг в библиотеке. Так, например:

  • В языке есть небольшое количество слов ("the", "and" и т.д.), которые используются чрезвычайно часто, а в библиотеке есть небольшое количество книг, которые пользуются очень высоким спросом (например, бестселлеры)
  • В языке есть достаточно большое количество слов ("dog", "house" и т.д.), которые используются достаточно часто, а в библиотеке есть добрая доля книг, которые берет очень много людей (детективы и прочее)
  • В языке полно слов ("Зипф", логарифмическая шкала" и т.д.), которые практически никогда не используются, а в библиотеках есть груды книг, которые берутся лишь раз в несколько лет (например, руководство по эксплуатации текстового процессора для Apple II)

Множество данных свидетельствуют, что и Web следует распределению Зипфа. На следующем рисунке показано распределение входящих запросов к страницам сайта www.sub.com в течение одного месяца прошлого года (1996 год). Каждая точка соответствует одной странице. По оси X страницы отсортированы по популярности: первая страница - самая популярная (это главная страница сайта), вторая страница - вторая по популярности за месяц, и так далее, пока мы не достигнем 10.000-ой страницы, которую запросили в течение месяца лишь один раз. Жирная линия показывает реальное распределение популярности страниц, а тонкая красная линия - теоретическую популярность в соответствии с распределением Зипфа. Можно увидеть, что совпадение практически полное за исключением правого "рога". Это отклонение связано с различными причинами, например, с тем фактом, что сайт был еще не достаточно "старым", чтобы накопить достаточное количество запросов к наименее интересным страницам.

Сравнение фактических данных веб-сайта Sun с теоретическими данными распределения Зифпа. Обратите внимание, график использует логарифмическую шкалу по обеим осям.

Вышеприведенный рисунок отображает входящие запросы, поступающие на сайт. показывают, что кривой Зипфа можно представить и работников организации (небольшое количество ссылок, которые посещаются работником чаще всего, и большое количество ссылок, посещенное только один раз). Оказывается, что распределение гипертекстовых ссылок в Web-е также подчиняется распределению Зипфа:

  • есть небольшое количество сайтов, на которые ссылаются все, и огромное количество сайтов, на которые практически никто не ссылается;
  • а также каждый сайт получает большую часть посетителей от небольшого количества сайтов, сделавших на него ссылку, а от огромного числа других сайтов приходит лишь небольшая часть посетителей

Участие в конференциях Usenet также следует распределению Зипфа: большую часть сообщению пишет лишь небольшая группа людей, а огромная оставшаяся часть пишет в конференции очень редко.

Якоб Нильсен