bigpo.ru
добавить свой файл
1

Полнотекстовый поиск научных публикаций




А.А. Толстобров, В.Г. Хромых

Воронежский государственный университет, факультет компьютерных наук, кафедра информационных систем, г.Воронеж


Доклад посвящен рассмотрению опыта разработки системы доступа к документам в "естественных" базах данных (в частности, Интернет), характеризующихся отсутствием собственных структур классификации. Существующие системы внеатрибутного поиска в полнотекстовых документальных базах данных основаны, в основном, на методах "булевского поиска", что не удовлетворяет возросшим требованиям к уменьшению трудоемкости нахождения данных.

Выходящая за рамки традиционной теории баз данных, проблема доступа к документальным базам требует перехода от запросов с точными предикатами (парадигмы, поддержанной традиционными SQL-ориентированными системами), к концепции запросов по релевантности, выражающей некий "уровень соответствия" каждого из документов намерениям пользователя. Поскольку широкое определение релевантности тесно связано с семантикой текста, на полном уровне недоступной машинному анализу, существующие подходы к реализации систем поиска основаны, как правило, на компромиссных методах расчета "функций релевантности" простыми статистическими методами.

Существенной проблемой для поиска научных текстов является "лексический шум", обусловленный избыточностями и многозначностями, присущих текстам. Для борьбы с синонимией и омонимией в библиотечных системах используется классификация текстов по предметным областям, однако, этот метод плохо соответствует характеру организации данных в "естественных" базах.

Общим свойством всех появившиеся в последние годы более совершенных методов анализа документов по релевантности является представление корпуса текстов в многомерном пространстве, размерность которого соответствует объему "словаря" корпуса текстов. Одним из наиболее удачных таких методов является метод LSI, в котором предложен подход к понижению размерности такого представления с целью снижения вычислительных затрат при обработке запросов. Очевидно, что такая операция не должна приводить к существенной деградации точности поиска (не повышать релевантность документов, изначально "не соответствующих" запросу), наряду с сохранением "отзыва" поиска (не допускать "выпадения" релевантных документов). Наряду с хорошим соответствием этим требованиям, особенностью модели LSI является увеличение релевантности документов в окрестности текущего релевантного документа, что позволяет эффективно бороться с лексическим шумом.

Наилучшие результаты LSI показывает на массивах однородных текстов большого объема. Как показывают практические исследования, к существенному ухудшению результатов ведет наличие шума в виде "документов-ловушек" – документов компилятивного и рекламного характера, чей текст специальным образом составлен так, чтобы соответствовать популярным запросам. Кроме того, увеличение объема корпуса текстов ведет к неприемлемому снижению производительности.

В основе подхода, предложенного для практической реализации системы, лежит идея последовательного многоуровневого просеивания и классификации массива документов по согласованным алгоритмам.

На первом уровне (уровне "отсева" информации) из массива результатов поиска изымаются документы, для которых вероятность удовлетворения запросу априори мала; для согласования с последующими этапами вводится функция оценки, в которой большей стоимостью обладает ложное отсечение "нужного" документа, чем ложный пропуск ненужного. Данный метод основан на высокопроизводительных технологиях булевского отбора, реализованных с использованием морфологической нормализации словоформ и полисемантического тезауруса.

На втором уровне (уровень "сборки мусора") на основании сравнения обратного коэффициента цитирования с динамически вычисляемым пороговым значением производится предварительная обработка и учет "документов-ловушек" – документов компилятивного и рекламного характера, чей текст специальным образом составлен так, чтобы соответствовать популярным запросам.

На третьем уровне производится ранжирование документов в соответствии с их релевантностью запросу на основании критериев близости, определяемых согласно модифицированной модели LSI в пространстве термов, которое после декомпозиции сингулярным разложением приводится к пространству ортогональных факторов (некоррелируемых "индексных термов").

На четвертом уровне ("обратная связь") производится анализ взаимодействия пользователя с интерфейсом отображения результатов. Этот процесс основан на предположении, что по представленному в результатах поиска отрывку текста (специальным образом выбранному в результате сопоставления запроса полному тексту) пользователь способен оценить степень соответствия возвращенного документа запросу. Данные о популярности запроса на чтение полного текста найденных документов используются для корректировки обратных индексов цитирования на втором уровне.

Предложенный подход был реализован в экспериментальной поисковой системе. Результаты исследований показали, что эффективность предложенной системы выше, чем у рассмотренных традиционных систем, при падении производительности на запросах малого объема и выигрыше – на запросах большого объема (десятки слов и более).