


|
Если бы создание эффективной поисковой
системы было простой технической задачей, популярные поисковые системы
не стоили бы десятки миллиардов долларов.
Проблемы,
связанные с технической реализацией поискового модуля, можно
проиллюстрировать примером.
Имеется сайт из 10 html
страниц. На каждой веб-странице сайта встречаются слова "веб-дизайн".
Перед поисковым
модулем ставится задача упорядочить все веб-страницы сайта при запросе
ключевого слова "веб-дизайн".
Для решения
указанной задачи поисковый модуль должен:
-
Произвести
отсев полезной текстовой информации от исходного программного кода
сайта.
-
На
основе определенного алгоритма упорядочить веб-страницы сайта.
|
-
Предположим, что с первой задачей поисковому модулю удалось
справиться. А для упорядочивания полученной информации поисковый
модуль должен уметь распознавать текстовую информацию на сайте.
Именно эта задача, с технической точки зрения, - чрезвычайно
сложная.
-
Человек может распознать слово
"веб-дизайн" при самом различном его написании: "ВЕБ-ДИЗАЙН", "В
Е Б - Д И З А Й Н", "веб-Дизайн", "Веб-ДИзайн", "веб-диЗАЙН", "веб-ДИ
ЗАЙН" и т.д. Различных вариантов написания слова "веб-дизайн" может быть
очень много. Если добавить к этому возможные комбинации слов, типа: "вебдизайн",
"вэб-дизайн", "вэбдизайн" и т.д., то их будет еще больше.
-
Предположим, что разработчики поискового
модуля запрограммировали его так, что при самых различных
написаниях слова "веб-дизайн", поисковый модуль сможет его
распознать. Для этого им потребовалось подобрать, по крайней
мере, сотни различных возможных вариантов написания слова
"веб-дизайн".
-
Если требуется распознать все слова
русского языка, в том числе и специальные технические термины,
при различном их написании, то для этого придется оперировать
очень большим количеством ключевых слов. Задача распознания
поисковым модулем ключевой фразы будет технически намного
сложнее.
-
После распознания ключевого слова
"веб-дизайн" на всех 10 веб-страницах сайта,
поисковый модуль должен выстроить их по определенному алгоритму.
-
Только после этого
посетитель сайта, набрав запрос "веб-дизайн", сможет получить ссылки на
страницы сайта, которые будут определенным образом упорядочены.
Комментарии
-
Давно
существуют различные схемотехнические решения, позволяющие, в той или
иной степени, решать указанную задачу. Один из простых примеров -
распознавание слова вне зависимости от того, какими буквами слово
написано: строчными или прописными.
-
В Интернете можно встретить многочисленные
бесплатные, условно-бесплатные и платные программные модули,
основная задача которых - обеспечение поиска информации по
какому-либо сайту.
-
Одна из
наиболее отличительных особенностей абсолютного большинства подобных
поисковых модулей - разработчик не предоставляет
никакой информации об алгоритме их работы.
Имеется в виду не
раскрытие каких-либо секретов или "ноу-хау" алгоритма поискового модуля,
а элементарное описание его работы: что и как умеет распознавать
поисковый модуль, а что - не умеет.
-
Объясняется это просто. Чаще всего, какой-либо алгоритм в поисковом модуле
отсутствует вообще. Подобные поисковые модули умеют лишь отсеивать
программный код от текста и выдавать некий набор ссылок на страницы
сайта. Ни о какой полноте и точности полученных результатов говорить
нельзя.
-
По сути, работа
подобных поисковых модулей сводится к следующему. Посетитель сайта
может ввести какой-либо запрос и получить некоторый ответ. Будут или
нет полными и точными полученные результаты, разработчика поискового
модуля не волнует.
-
Получив разработанный сайт, заказчик, не утруждает себя
проверкой полноты и точности результатов, выдаваемых поисковым модулем,
включённым в состав собственного сайта.
-
Осознание
допущенной ошибки приходит позже, когда владелец сайта сам
убеждается, что большую часть товаров и услуг, представленных на
сайте, с помощью поискового модуля, найти вообще нельзя. В результате
страдают и прибыль и имидж фирмы.
-
Практический опыт работы
крупнейших Интернет-магазинов показывает, что одна из серьезных
проблем, с которой приходится сталкиваться посетителям
Интернет-магазина, - поиск нужной информации.
-
По оценке владельцев
самих Интернет-магазинов, более 50% товаров и услуг, представленных на
сайте, не может быть найдено посетителями с помощью поисковых модулей,
включенных в состав Интернет-магазина.
-
Все это относится к работе крупнейших
Интернет-магазинов, над созданием и отладкой поисковых модулей
которых в течение нескольких лет работали многие специалисты. Что же
говорить о поисковых модулях попроще?
Важно
-
Поисковые системы Интернета
осуществляют поиск среди миллионов сайтов. Система поиска по сайту
осуществляет поиск внутри одного сайта.
-
Неточность или ошибка в выдаче
результатов поисковой системой среди многих миллионов сайтов менее
заметна, чем неточность или ошибка в выдаче результатов по
конкретному сайту.
На заметку
-
В конце
80-х годов прошлого века появилась информация о том, что проблема
распознания и упорядочивания информации на персональном компьютере
практически решена, и создание искусственного интеллекта не за горами.
-
В конце 90-х годов прошлого века появилась
обнадеживающая информация о том, что те же задачи могут быть успешно
решены в скором времени.
-
В настоящее время имеется целый ряд
публикаций о том, что удается продвинуться в понимании того, как
производить поиск и упорядочивание информации на сайте.
-
За прошедшие два десятилетия произошло
переосмысление многих технических задач и возможного времени их
технической реализации.
|
|
|