Поисковая система > Алгоритм поиска > Законы Зипфа. Джордж Кингсли Зипф

Джордж Кингсли Зипф

(George Kingsley Zipf)

1902-1950

Гарвардский профессор-лингвист и филолог

"Слова с большим количеством букв встречаются в тексте реже коротких слов".

(Д.К.Зипф)

Суть законов Зипфа:

В каждом языке есть слова, которые встречаются чаще, чем остальные, но не имеют значения. Есть слова, которые встречаются реже, но имеют намного большее смысловое значение.

Важно:

Законы Зипфа эмпирические и сформулированы им в 1949 г. Получены не на основе математических выводов, а на основе анализа статистики частоты слов текстах на многих языках.
Знание законов Зипфа позволяет лучше понять, почему нельзя дать 100% гарантию занятия сайтом высокого рейтинга в поисковых системах.
Законы Зипфа используются при разработке алгоритма работы поисковых систем и при поисковой оптимизации сайта.
Применительно к рейтингу сайтов из законов Зипфа следует: в каждом сегменте Интернете есть небольшая часть сайтов, которые посещает наибольшая часть посетителей.
На основе законов Зипфа поисковые системы разделяют все слова на группы:
- Некоторые слова, которые встречаются наиболее часто, например, междометия, предлоги, суффиксы и т.д., поисковые системы считают шумовыми словами и не учитывают при ранжировании сайтов.
- Другие слова поисковые системы считают важными. Их называют ключевыми словами.
  - Часть ключевых слов, имеющих важное смысловое значение для конкретного сайта, учитывают при ранжировании.
  - Остальные ключевые слова считают случайными для конкретного сайта, и их роль при ранжировании сайта невелика.

На заметку:

Понять смысл законов Зипфа проще, если посмотреть на расположение букв на клавиатуре. В каждом языке есть буквы, которые встречаются чаще, чем остальные. Их частота несколько различается в зависимости от тематики: научный текст, экономический текст и т.д. При расположении букв на клавиатуре пишущих машинок, а затем и ПК, учитывается "популярность" каждой буквы.
Аналогично в каждом языке есть слова, которые встречаются чаще, чем остальные. Проведя анализ любого текста, возможно выделить группу наиболее значимых слов, т.е. слов, при помощи которых можно определить, к какой области относится текст и его основные термины.
Суть законов Зипфа состоит в том, что он эмпирически установил статистические закономерности распределения частоты слов.
В то время, когда Зипф сформулировал подмеченные им закономерности распределения частоты слов, законом они не считались. В то время еще не было компьютеров и нельзя было провести точные расчеты, подтверждающие выявленные закономерности.
В последующем были проведены многочисленные исследования, которые подтвердили и уточнили подмеченные закономерности. Их стали называть законами Зипфа.

Первый закон Зипфа "ранг - частота"

Произведение вероятности обнаружения слова в тексте на его ранг частоты (ранг частоты наиболее частого слова равен 1) - константа.

(Количество вхождений слова x ранг частоты) / Число слов = const (величина постоянная)

Второй закон Зипфа "количество - частота"

Форма кривой зависимости частоты и количества слов, входящих в текст с этой частотой, одинакова для всех текстов.

О законах Зипфа

Законы Зипфа описывают любой текст, созданный человеком, в частности, на основе частотного анализа вхождения слов в текст.
Законы Зипфа дают более точные результаты при анализе больших текстов.

Зипф также установил, что наиболее часто употребляемые слова языка, существующего длительное время, короче остальных.

Лауреат Нобелевской премии физик Гелл-Манн так объясняет закон Зипфа:

"Откроем статистический справочник и найдём там список крупнейших городов США, расположенных по порядку убывания населения, причём каждому городу будет приписан его ранг: первый – для самого большого, второй – для следующего и так далее.
Существует ли какой-нибудь общий закон, показывающий, как убывает население города по мере увеличения его ранга?
Грубо говоря, да. С достаточной точностью население города обратно пропорционально его рангу: если население первого принять за единицу, то население второго – 1/2, третьего – 1/3 и так далее.
Глянем теперь на список фирм, расположенных в порядке убывания их оборота. Существует ли здесь какой-либо приблизительный закон, связывающий объём оборота с рангом фирмы? Да, и это тот же закон, что для населения: оборот фирмы обратно пропорционален его рангу.
А как насчёт экспорта из данной страны в порядке его убывания? Оказывается, и тут ситуация хорошо описывается тем же законом. Тогда отложим в сторону статистический справочник и возьмём в руки руководство по кодам, в котором имеется список самых распространённых английских слов в порядке убывания частоты их встречаемости в произвольном английском тексте. Мы опять увидим тот же закон обратной пропорциональности – он так же хорошо работает в языке, причём не только в английском".

Эмпирическая закономерность распределения частоты встречаемости слов естественного языка в достаточно большом тексте.

Основные разделы

О веб-студии
Услуги
Прайс-лист
Бизнес-планы
Бизнес-проекты
Веб-дизайн
Графика сайта
Договор на сайт
Задание на сайт
Заказать сайт
Интернет-конкурсы
Интернет-магазин
Интернет-маркетинг
Интернет-реклама
Ключевые слова
Контент сайта
Научный веб-дизайн
Оптимизация сайта
Поддержка сайта
Поисковая система
Портфолио
Раскрутка сайта
Редизайн
Рейтинг сайта
Рекомендации
Сайты для бизнеса
Сайт по недвижимости
Создание сайта
Справочник
Стоимость сайтов

Архитектура. Проектирование. Готовые проекты домов.

Законы Зипфа