bigpo.ru
добавить свой файл
  1 ... 17 18 19 20 21 22 23

Основные компоненты поисковых систем

Существует множество [2, 26, 35, 41, 47, 75] публикаций, которые приводят описания используемых алгоритмов и схем организации поисковых систем в Internet. Мы привели описанные схемы ПС к виду, который будет удобно использовать в рамках данной работы. Создавая свою схему, мы ставили перед собой следующие цели:

  1. необходимо обособить элементы структуры ПС, которые выполняют функции мониторинга;

  2. необходимо уяснить существующие потоки информации, которые циркулируют «внутри» ПС. Это требуется для того, чтобы убедиться в правильности разбиения ПС на модули.



Рис. П.1.1. Основные компоненты поисковых систем в Internet

Результат можно видеть на рисунке, из которого очевидно, что мы выделяем следующие основные компоненты поисковых систем Internet: модуль мониторинга, репозиторий собранной информации, модуль создания индексов, индексы (индексные базы) и модуль взаимодействия с пользователем. Кратко охарактеризуем каждый компонент.

Модуль мониторинга. На входе этот модуль имеет всё множество информационных ресурсов какого-либо сегмента Internet. Существует несколько способов обнаружения неизвестных ИР. Поэтому сейчас мы не конкретизируем то, как именно модуль будет узнавать о каком-либо информационном ресурсе. Функция модуля заключается в том, чтобы, используя некий внутренний алгоритм (см. п. 1.3), собрать32 в одном месте информацию33 о каждом доступном информационном ресурсе. Только от внутреннего алгоритма зависит способность поисковой системы охватить своим вниманием всё множество доступных информационных ресурсов.

Таким образом, на выходе этого модуля получаем репозиторий собранной информации.

Репозиторий собранной информации. Это некоторое, готовое к удобному использованию, представление о сегменте информационного поля Internet.

Учитывая значительные размеры хранимой в Internet информации разного типа, становится понятным желание избегать банального складирования на своих дисках копии тех данных, которые есть в сети. Разработчики поисковых систем по-разному подходят к вопросу создания репозитория. Основную роль здесь играет уровень финансовой обеспеченности проекта.

Резюмируя можно сказать, что репозиторий это пассивный элемент схемы, так как сам он никаких действий по отношению к другим элементам схемы не выполняет. Его основная функция заключается в накоплении в нужном виде того, что ему передаёт на хранение модуль мониторинга (удаление «ненужной» или устаревшей информации так же выполняется по запросу модуля мониторинга). Другой его функцией является предоставление накопленных сведений, как модулю мониторинга, так и модулю создания индексов.

Видится актуальным и перспективным исследование методов «глубокого» анализа накопленных данных, методов извлечения «знаний». Самый простой пример – анализ репозитория с целью выявления информационных ресурсов-«пустышек», т.е. страниц, которые создают так называемые «спамеры поисковых систем». Пустышки34, например, характеризуются тем, что содержат «в себе» слова и фразы большинства наиболее популярных запросов к поисковой системе. Благодаря этому им удаётся попадать на первые страницы результатов запросов (они имеют очень большой уровень релевантности), хотя реально не содержат полезной информации.

Модуль создания индексов. Выполнение поиска на данных, накопленных в репозитории, является неэффективным. Поэтому логичным является решение использовать индексные структуры. Таким образом, рассматриваемый модуль на вход принимает информацию, которая накоплена в репозитории. Далее проводится специальная обработка. Например, гипертекст, как минимум, необходимо очистить от HTML-разметки и создать массив оставшихся слов. Результат такой обработки (массив слов) становится источником для построения индексных структур. Количество и состав индексов зависит от цели поставленной перед разработчиками поисковой системы. Таким образом, на выходе этого модуля мы получаем набор из индексных баз (минимум одну базу).

Индексы. Индексы сами по себе также являются пассивным элементом схемы, так как не производят действий по отношению к другим элементам схемы. Основная функция индексов заключается в специальной организации данных, с помощью которых можно с приемлемой эффективностью производить поиск нужной информации среди всего массива накопленных сведений о сегменте информационного поля Internet.

Модуль взаимодействия с пользователем. На вход данного модуля поступают запросы пользователей. Причём реализация языка запросов пользователей преимущественно стремиться к естественному языку. Таким образом, основная функция данного модуля заключается в переводе запросов пользователя с языка понятного пользователю на язык понятный машине работающей с индексом. На выходе этого модуля получается список ссылок на информационные ресурсы сегмента информационного поля Internet.

Приложение 2.


Время и объём в эксперименте

Если просуммировать машинное время, которое было затрачено на реализацию однотипных операций одного прогона эксперимента, то результат будет распределен следующим образом.

Таблица П.2.1

Время реализации однотипных операций эксперимента

Наименование группы операций

Продолжительность

Создание наборов информационных ресурсов, историй их изменений и запросов

3894577 секунд или

~ 45 дней

Создание маршрутов роботов

2902 секунд или

~ 48 минут

Моделирование работы одного «обычного» робота (вариант №1)

2378991 секунд или

~ 27 дней

Моделирование работы одного «модифицированного» робота (вариант №2)

2527009 секунд или

~ 29 дней

Моделирование работы трёх обычных роботов (вариант №3)

2361997 секунд или

~ 27 дней

Моделирование работы трёх модифицированных роботов (вариант №4)

2727092 секунд или

~ 31 день

Моделирование работы пяти обычных роботов (вариант №5)

2403888 секунд или

~ 27 дней

Моделирование работы пяти модифицированных роботов (вариант №6)

3147402 секунд или

~ 36 дней

Моделирование работы «сенсоров» (вариант №7)

11373900 секунд или ~ 131 день


Из данной таблицы видно, что наиболее продолжительным этапом явилось моделирование работы системы «сенсоров» (131 день). Причина такой большой длительности данного этапа эксперимента становится очевидной после рассмотрения дополнительных сведений о трёх этапах создания «исходных» данных, а именно об этапе создания трёх наборов информационных ресурсов (см. табл. П.2.2), об этапе создания историй изменений ИР (см. табл. П.2.3) и об этапе создания историй запросов ИР (см. табл. П.2.4).

Таблица П.2.2

Характеристики созданных наборов информационных ресурсов

Количество ИР (шт.)

Виртуальный объём

Реальный объём (БД в MySQL)

Продолжительность

создания

100000

6138046730 байт или

~ 6 Гб

1729824 байт или

~ 1 Мб

218 секунд или

~ 3 минуты

200000

12283606819 байт или

~ 12 Гб

3449024 байт или

~ 3 Мб

442 секунды или

~ 7 минут

300000

18445598350 байт или

~ 18 Гб

5168224 байт или

~ 5 Мб

644 секунды или

~ 10 минут


Таблица П.2.3

Характеристики созданных историй изменений ИР

Количество ИР (шт.)

Моделируемое время

Кол-во описанных «событий»

Реальный объём (БД в MySQL)

Продолжительность

создания

100000

8640000 ед.

199515


7822898 байт или

~ 7 Мб

726 секунд или

~ 12 минут

599027


23548130 байт или

~ 23 Мб

1647 секунд или

~ 27 минут

1099188


43383924 байт или

~ 43 Мб

2881 секунд или

~ 48 минут


Продолжение таблицы П.2.3

Количество ИР (шт.)

Моделируемое время

Кол-во описанных «событий»

Реальный объём (БД в MySQL)

Продолжительность

создания

100000

17280000 ед.

299937


11835166 байт или

~ 11 Мб

935 секунд или

~ 15 минут

1100003


43382210 байт или

~ 43 Мб

2951 секунда или

~ 49 минут

2099949


82778742 байт или

~ 82 Мб

5335 секунд или

~ 88 минут

200000

8640000 ед.

400694


15746968 байт или

~ 15 Мб

1476 секунды или

~ 24 минуты

1198989


47173046 байт или

~ 47 Мб

3510 секунд или

~ 58 минут

2202283


86592978 байт или

~ 86 Мб

5963 секунды или

~ 99 минут

17280000 ед.

601566


23688040 байт или

~ 23 Мб

1944 секунды или

~ 32 минуты

2198682


86599840 байт или

~ 86 Мб

6121 секунда или

~ 102 минуты

4202024


165506204 байт или

~ 165 Мб

13987 секунд или

~ 233 минуты


Продолжение таблицы П.2.3

Количество ИР (шт.)

Моделируемое время

Кол-во описанных «событий»

Реальный объём (БД в MySQL)

Продолжительность

создания

300000

8640000 ед.

599787


23602770 байт или

~ 23 Мб

2162 секунды или

~ 36 минут

1797985


70627998 байт или

~ 70 Мб

5387 секунд или

~ 89 минут

3300042


129929216 байт или

~ 129 Мб

9411 секунд или

~ 156 минут

17280000 ед.

900534


35475608 байт или

~ 35 Мб

3043 секунды или

~ 50 минут

3303529


130005294 байт или

~ 130 Мб

9248 секунд или

~ 154 минуты

6300788


247865844 байт или

~ 247 Мб

33642 секунды или

~ 560 минут (9 ч.)


<< предыдущая страница   следующая страница >>