Важно:
-
Законы Зипфа эмпирические и
сформулированы им в 1949 г.
Получены не на основе математических выводов, а на основе анализа
статистики частоты слов текстах на многих языках.
-
Знание законов Зипфа позволяет лучше
понять, почему нельзя дать 100% гарантию занятия сайтом высокого
рейтинга в поисковых системах.
-
Законы Зипфа используются при
разработке алгоритма работы поисковых систем и при поисковой оптимизации
сайта.
-
Применительно к рейтингу сайтов из
законов Зипфа следует: в каждом сегменте Интернете есть небольшая
часть сайтов, которые посещает наибольшая часть посетителей.
-
На основе законов Зипфа поисковые
системы разделяют все слова на группы:
-
Некоторые слова, которые встречаются
наиболее часто, например, междометия, предлоги, суффиксы и т.д.,
поисковые системы
считают шумовыми словами и не
учитывают при ранжировании сайтов.
-
Другие слова поисковые системы считают важными. Их
называют ключевыми словами.
-
Часть ключевых слов, имеющих важное
смысловое значение для конкретного сайта, учитывают при
ранжировании.
-
Остальные ключевые слова считают
случайными для конкретного сайта,
и их роль при ранжировании сайта невелика.
На заметку:
-
Понять смысл законов Зипфа проще, если
посмотреть на расположение букв на клавиатуре. В каждом
языке есть буквы, которые встречаются чаще, чем остальные. Их
частота несколько различается в зависимости от тематики: научный
текст, экономический текст и т.д. При расположении букв на
клавиатуре пишущих машинок, а затем и ПК, учитывается "популярность"
каждой буквы.
-
Аналогично в каждом языке есть слова,
которые встречаются чаще, чем остальные.
Проведя
анализ любого текста, возможно
выделить группу наиболее значимых слов, т.е. слов, при помощи
которых можно определить, к какой области относится текст и
его основные термины.
-
Суть законов Зипфа состоит в том, что
он эмпирически установил статистические закономерности
распределения частоты слов.
-
В то время, когда Зипф сформулировал
подмеченные им закономерности распределения частоты слов, законом
они не считались. В то время еще не было компьютеров и нельзя было
провести точные расчеты, подтверждающие выявленные закономерности.
-
В последующем были проведены
многочисленные исследования, которые подтвердили и уточнили
подмеченные закономерности. Их стали называть законами Зипфа.
Первый закон Зипфа
"ранг - частота"
Произведение вероятности обнаружения слова в тексте на его ранг
частоты (ранг частоты наиболее частого слова равен 1) - константа.
(Количество вхождений слова x ранг частоты) / Число слов =
const (величина постоянная)
Второй закон Зипфа "количество - частота"
Форма кривой зависимости частоты и количества слов, входящих в текст
с этой частотой, одинакова для всех текстов.
О законах Зипфа
-
Законы
Зипфа описывают любой текст, созданный
человеком, в частности, на основе частотного анализа вхождения слов
в текст.
-
Законы Зипфа дают более точные
результаты при анализе больших текстов.
Зипф
также установил, что наиболее часто употребляемые слова языка,
существующего длительное время, короче остальных.
Лауреат Нобелевской премии физик Гелл-Манн
так
объясняет закон Зипфа:
-
"Откроем статистический справочник и
найдём там список крупнейших городов США, расположенных по порядку
убывания населения, причём каждому городу будет приписан его ранг:
первый – для самого большого, второй – для следующего и так далее.
-
Существует ли какой-нибудь общий закон, показывающий, как убывает
население города по мере увеличения его ранга?
-
Грубо говоря, да. С
достаточной точностью население города обратно пропорционально его
рангу: если население первого принять за единицу, то население второго –
1/2, третьего – 1/3 и так далее.
-
Глянем теперь на список фирм,
расположенных в порядке убывания их оборота. Существует ли здесь
какой-либо приблизительный закон, связывающий объём оборота с рангом
фирмы? Да, и это тот же закон, что для населения: оборот фирмы обратно
пропорционален его рангу.
-
А как насчёт экспорта из данной страны в
порядке его убывания? Оказывается, и тут ситуация хорошо описывается тем
же законом. Тогда отложим в сторону статистический справочник и возьмём
в руки руководство по кодам, в котором имеется список самых
распространённых английских слов в порядке убывания частоты их
встречаемости в произвольном английском тексте. Мы опять увидим тот же
закон обратной пропорциональности – он так же хорошо работает в языке,
причём не только в английском".
Эмпирическая закономерность
распределения частоты встречаемости слов
естественного языка в достаточно большом тексте.
|