Слайд 1
Поиск информации в Научной электронной библиотеке периодических изданий НАН Украины
Проскудина
Г.Ю.
Міжнародна наукова конференція
«Формування і розвиток бібліотечного електронного середовища», Киів, 2011
Слайд 2Библиотека программ Lucene
выполняет две функции – индексирования и поиска
это
- один JAR-файл размером < 1 Мб
предоставляет возможности поиска, например, в системе ЭБ DSpace
Слайд 3Поиск –
процесс нахождения слов в индексе, с помощью которого находятся документы,
содержащие эти слова
Индекс – специально разработанная структура данных, хранящаяся в виде набора файлов и являющаяся инструментом поиска
Слайд 4Показатели качества поиска
Полнота (Recall) - насколько хорошо система поиска находит соответствующие
документы
#(кол-во найденных релевантных документов)
Recall = -----------------------------------------------------------------
#(общее кол-во релевантных документов)
Точность (Precision) - насколько хорошо система отфильтровывает нерелевантные документы
#(кол-во найденных релевантных документов)
Precision = ---------------------------------------------------------------------------
#(кол-во извлеченных документов)
Слайд 5Функция поиска в ЭБ
предоставляет возможность находить в системе информационные ресурсы, которые
удовлетворяют тому или иному условию.
можно сузить пространство поиска, а также осуществлять многошаговый поиск
Слайд 6Сужение пространства поиска:
раздел (подраздел, …) ЭБ;
вид ресурсов (книги, журналы, диссертации,
...);
определенные значения характеристик ресурсов (дата создания, автор, организация, язык, формат, ...);
использование иерархических словарей поисковых терминов, предметных рубрикаторов, тезаурусов или классификаторов.
Слайд 7Требования ЭБ к языку поиска:
полные тексты и описательные характеристики (метаданные);
отдельные
поисковые слова или фразы;
отсечение окончания или начала слов;
групповые символы (?) и (*);
логические связки И-ИЛИ-НЕ;
поиск по словоформам и синонимам поисковых терминов, а также с учетом морфологии языка;
чувствительность или нечувствительность к регистру символов;
поиск по близости размещения слов в тексте;
поиск по фонемному звучанию поисковых терминов.
Слайд 8
Виды поиска в ЭБ:
простой или стандартный
расширенный
профессиональный
Слайд 9Простой или стандартный
поиск предоставляет некоторые минимальные поисковые возможности;
осуществляется во всех индексах,
которые построены в системе, т.е. во всех описательных полях и во всех текстах;
среди поисковых терминов различают:
- поиск слов;
- поиск фраз.
Слайд 11Стоп-слова
это слова, по которым не производится поиск
в английском языке: a,
and, are, as, at, be, but, by, for, if, in, into, is, it, no, not, of, on, or, such, the, to, was.
украинский и русский языки: наречия, союзы, предлоги пока не поддерживаются
можно включить стоп-слово в поисковый запрос (например, используя знак +).
Слайд 12Поиск по нескольким словам
производится поиск статей, которые содержат КАКИЕ-ЛИБО из указанных
слов
НЕТ каких-либо ограничений на количество слов в поисковом запросе
Слайд 13Использование групповых символов (?) и (*)
(?) – спрашивающий не знает
точного написания слова:
dynamic или dinamic ,
то можно указать в поисковом запросе d?namic
- ФАМИЛИЯ автора в разных статьях указывается на УКРАИНСКОМ либо на РУССКОМ языке
Анісімов и Анисимов - Ан?с?мов
Слайд 14Использование групповых символов (?) и (*)
* ─ в слове известна лишь
некоторая последовательность символов, а другие – не известны
например, Антон* и будут найдены статьи: Антонюк, Антонцева, Антонов, Антонова…
можно одновременно использовать символы * и ?, например, поисковое слово Р?зн*е?ко
могут быть ограничения (например, не разрешается использовать символы ? и * в начале слова)
Слайд 15Поиск по близости звучания слова
Нужно указать символ тильда (~) в конце
слова
На запрос:
семантический~
будут найдены однокоренные слова семантическому, семантическими …
а также такие близкие по звучанию слова, такие, как генетический, статический, механические, органический, электрические, математический, электрический ...
Слайд 16Поиск по близости звучания слова
факультативный параметр показывает меру близости звучания слов
и находится в интервале 0–1.
cемантический~0.4
чем больше число, тем большая понадобится схожесть звучания
по умолчанию используется значение 0.5
Слайд 17Поиск фраз
Фраза – это последовательность слов, расположенных в двойных кавычках
Например,
"база данных", "исчисление предикатов", "семантическая сеть" …
Например, на запрос "knowledge base", получаем результат:
Слайд 19Использование слов и фраз
Например, на поисковый запрос:
библиотека поиск "база данных"
oaі-pmh "интегрированный каталог"
будут найдены статьи, которые содержат любые из перечисленных слов или фраз
Слайд 20Поиск с использованием расстояния между словами
которое не превышает указанного числа
Например, поисковое
выражение
"научных системы"~4
даст следующий результат:
Слайд 21Использование расстояния между словами
Запрос: "научных системы"~4
Слайд 22Использование расстояния между словами
Запрос: "научных системы"~3
Слайд 23Поиск по важности слов или фраз
Запрос 1: parallel^4 programmіng
Запрос 2:
"база данных"^20, "информационная система"^10, библиотека^5
В качестве меры релевантности можно использовать неотрицательные целые числа и десятичные дроби в интервале 0-1.
По умолчанию все слова/фразы имеют меру релевантности 1.
Слова/фразы располагаются в порядке уменьшения их меры релевантности.
Слайд 24Обязательное наличие слов или фраз
Запрос 1: +библиотека +научная электронная
Запрос 2:
+"база данных" библиотека
Запрос 3: +библио* +электрон* +наук*
Слайд 26Профессиональный поиск
Примеры запросов:
1. author: Резн?ч*;
2. tіtle:(электр* катал* поиск);
3. abstract:(библ*
"электронный каталог" семантический~0.4);
4. система tіtle:баз* abstract:дан*;
5. база И (данные ИЛИ знания) НЕ прогр*;
6. author:Резн?ч* И tіtle:(электр* катал* поиск) ИЛИ (система tіtle:баз*);
Слайд 27Дополнительные
поисковые функции
настройка параметров поиска;
сохранение результатов поиска для последующего использования;
сохранение
текстов запросов и их повторное использование самостоятельно или в составе других запросов;
представление результатов поиска в разных форматах;
помощь пользователям при использовании поисковых средств для повышения эффективности поиска.