Кривые Зипфа и популярность веб-сайтов
Кривые Зипфа выглядят как прямые линии, если их нарисовать на двойной логарифмической шкале. На рисунках, представленных ниже, изображен набор из 300 элементов, подчиняющийся распределению . Обратите внимание, что на правой диаграмме линия, соединяющая все точки, образует прямую (на графике обе шкалы - логарифмические). Большинство графиков, которыми мы пользуемся в жизни, имеют линейную шкалу, поэтому в качестве сравнения на левой диаграмме представлены те же самые данные, но на графике с линейной шкалой по осям.
Линейная шкала |
Логарифмическая шкала |
|
Одни и те же данные, изображенные на линейной и логарифмической шкале. Оба графика изображают распределение Зипфа на примере 300 точек. |
Из вышеприведенных графиков понятно, что кривые Зипфа при изображении на линейных шкалах имеют тенденцию очень плотно прилегать к осям графиков. Именно поэтому мы обычно рисуем эти кривые на логарифмической шкале, даже несмотря на то, что большинство людей не привыкло с ними работать. Простое описание данных, подчиняющихся распределению Зипфа, таково:
- Небольшое количество элементов имеет очень высокий рейтинг (левый "рог" диаграммы)
- Среднее количество элементов имеет средний рейтинг (средняя часть диаграммы)
- Огромное количество элементов имеет очень низкий рейтинг (правый "рог" диаграммы)
Как показывает практика, распределения Зипфа можно использовать для описания употребления слов в человеческом языке (например, английском) и популярности книг в библиотеке. Так, например:
- В языке есть небольшое количество слов ("the", "and" и т.д.), которые используются чрезвычайно часто, а в библиотеке есть небольшое количество книг, которые пользуются очень высоким спросом (например, бестселлеры)
- В языке есть достаточно большое количество слов ("dog", "house" и т.д.), которые используются достаточно часто, а в библиотеке есть добрая доля книг, которые берет очень много людей (детективы и прочее)
- В языке полно слов ("Зипф", логарифмическая шкала" и т.д.), которые практически никогда не используются, а в библиотеках есть груды книг, которые берутся лишь раз в несколько лет (например, руководство по эксплуатации текстового процессора для Apple II)
Множество данных свидетельствуют, что и Web следует распределению Зипфа. На следующем рисунке показано распределение входящих запросов к страницам сайта www.sub.com в течение одного месяца прошлого года (1996 год). Каждая точка соответствует одной странице. По оси X страницы отсортированы по популярности: первая страница - самая популярная (это главная страница сайта), вторая страница - вторая по популярности за месяц, и так далее, пока мы не достигнем 10.000-ой страницы, которую запросили в течение месяца лишь один раз. Жирная линия показывает реальное распределение популярности страниц, а тонкая красная линия - теоретическую популярность в соответствии с распределением Зипфа. Можно увидеть, что совпадение практически полное за исключением правого "рога". Это отклонение связано с различными причинами, например, с тем фактом, что сайт был еще не достаточно "старым", чтобы накопить достаточное количество запросов к наименее интересным страницам.
Сравнение фактических данных веб-сайта Sun с теоретическими данными распределения Зифпа. Обратите внимание, график использует логарифмическую шкалу по обеим осям.
Вышеприведенный рисунок отображает входящие запросы, поступающие на сайт. показывают, что кривой Зипфа можно представить и работников организации (небольшое количество ссылок, которые посещаются работником чаще всего, и большое количество ссылок, посещенное только один раз). Оказывается, что распределение гипертекстовых ссылок в Web-е также подчиняется распределению Зипфа:
- есть небольшое количество сайтов, на которые ссылаются все, и огромное количество сайтов, на которые практически никто не ссылается;
- а также каждый сайт получает большую часть посетителей от небольшого количества сайтов, сделавших на него ссылку, а от огромного числа других сайтов приходит лишь небольшая часть посетителей
Участие в конференциях Usenet также следует распределению Зипфа: большую часть сообщению пишет лишь небольшая группа людей, а огромная оставшаяся часть пишет в конференции очень редко.
Якоб Нильсен