Создание легко обновляемых текстовых индексов презентация

Содержание

1. Создание легко обновляемых текстовых индексов
2. Задача Поиск слов и фраз в большой текстовой коллекции
3. Инвертированные файлы Часто используются для поиска Сложно добавлять новые данные
4. Инвертированные файлы Для каждой словоформы сохраняется информация
5. Пример информации о вхождении 1)
6. Задача Нужно сделать индекс, который бы позволял легко добавлять в него новые данные
7. CLB-дерево B-дерево, в нем хранятся слова
8. Морфология Морфологический анализатор Для каждой словоформы из
9. Кэширование Храним в B-дереве не словоформы, а
10. Плюсы Можно быстро добавлять новые данные. Информация
11. Минусы 1) Фрагментация – блоки могут располагаться
12. Проблема фрагментации Пусть в списке блоков k
13. Пример У нас есть 25 блоков и
14. Проблема фрагментации Информация о вхождениях слова сохраняется в списке блоков
15. Алгоритм Пусть есть k заполненных подряд расположенных
16. k = 2x, x < c ищем
17. k = 2x, x = c Заканчиваем
18. Остальные случаи Используем зарезервированные ранее блоки (в случае k = 2x, x < c)
19. Эффективное использование дисковой памяти B-дерево, в нем
20. Эффективное использование памяти Все базовые формы разделяются
21. Сравнение с существующими разработками Общий
22. Описание конфигурации оборудования Процессор: Intel Core
23. Создание индекса Создание инвертированного файла: время 9
24. Добавление в индекс одного файла среднего размера
25. Добавление в индекс одного файла малого размера
26. Время поиска Время поиска в инвертированном файле и CLB-индексе практически совпадают.
27. Выводы Проведенные эксперименты показывают высокую эффективность CLB индекса при добавлении в него данных небольшого размера.
28. Сравнение с существующими разработками Процессор:
29. Создание CLB индекса Размер индекса 26,2
30. SearchInform Desktop (http://www.searchinform.com) Размер индекса 16,15 гб. Время создания 9 часов.
31. Архивариус 3000 http://www.likasoft.com/ Размер индекса 24,83 гб. Время создания 6 часов 46 мин.
32. Google Desktop Размер индекса ~ 5 гб Время создания 31 час 25 минуты
33. Выводы Эксперименты показывают высокую скорость создания CLB индекса.
34. Эксперименты Общий объем 86 гб, 400 049
35. Описание конфигурации оборудования Процессор: Intel Core 2
36. Создание CLB индекса Размер индекса 56,5 гб.
37. Инвертированные файлы Размер индекса 117,7 гб. Время создания 20 часов 6 минут.
38. Архивариус 3000 http://www.likasoft.com/ Размер индекса 62,65 гб. Время создания 6 часов 10 минут.
39. Инструментарий Автором разработана библиотека для создания индексов
40. Форматы файлов Библиотека может индексировать файлы в
41. Архивы Поддерживается обработка архивов форматов ZIP, CAB, RAR, 7Z, ARJ, TAR, и др.
42. Архитектура Библиотека реализована в виде COM сервера для операционных систем Windows Написана на C++.
43. Архитектура Ядро, осуществляет создание индекса и поиск.
44. Форматы файлов Модуль поддержки форматов файлов. Поддержка
45. Архитектура Модуль атрибутов документов, для сохранения описания
46. Архитектура Модуль COM осуществляет доступ к остальным
47. Системные требования Реализованные алгоритмы достаточно нетребовательные к
48. SSD Эффективность описанных в данном алгоритмов значительно
49. Литература Веретенников А. Б., Лукач Ю. С.

Главная
Разное
Создание легко обновляемых текстовых индексов

Слайд 1Создание легко обновляемых текстовых индексов
Веретенников А. Б.

Слайд 2Задача
Поиск слов и фраз в большой текстовой коллекции

Слайд 3Инвертированные файлы
Часто используются для поиска
Сложно добавлять новые данные

Слайд 4Инвертированные файлы
Для каждой словоформы сохраняется информация о том, в каких документах

и где в документах она встречается

Слайд 5Пример информации о вхождении

1) Номер (ID) файла
2) Позиция словоформы в файле

(порядковый номер словоформы, номер предложения, и т. д. )

Слайд 6Задача
Нужно сделать индекс, который бы позволял легко добавлять в него новые

данные

Слайд 7CLB-дерево

B-дерево, в нем хранятся слова

Информация о вхождениях слова сохраняется в списке

блоков

Слайд 8Морфология
Морфологический анализатор
Для каждой словоформы из словаря выдается набор базовых форм.
Базовых форм

~ 200 тысяч.
Словоформ ~ 4 млн.

Слайд 9Кэширование
Храним в B-дереве не словоформы, а базовые формы. Можем хранить в

памяти последний блок для каждой базовой формы.

Слайд 10Плюсы
Можно быстро добавлять новые данные. Информация о новых вхождениях слова добавляется

в последний блок списка. Когда он заполняется - создается новый блок.

Слайд 11Минусы
1) Фрагментация – блоки могут располагаться в разных местах
2) Неэффективное использование

дисковой памяти, блоки могут быть слабо заполнены
3) Требует много памяти для использования большого размера блока (200 000 x <Размер блока>).

Слайд 12Проблема фрагментации
Пусть в списке блоков k блоков.
Выберем число m = 2C
Разделим

весь список блоков на группы, размером m блоков в каждой, за исключением последней.

Слайд 13Пример
У нас есть 25 блоков и m = 8.

Разбиваем 25

блоков на группы следующих размеров 8, 8, 8, 1.

Слайд 14
Проблема фрагментации
Информация о вхождениях слова сохраняется в списке блоков

Слайд 15Алгоритм
Пусть есть k заполненных подряд расположенных блоков B1, …, Bk, в

частности последний блок также заполнен, и нам требуется взять где-то новый блок.

Слайд 16k = 2x, x < c
ищем 2k подряд располагающихся блоков N1,

… N2k.
Затем копируем информацию из старых k блоков в первую половину новых блоков, т. е. в блоки N1, … Nk соответственно.
B1, …, Bk помечаются как свободные.
Запись далее осуществляется в Nk+1.
Nk+2, …, N2k, помечаются как зарезервированные

Слайд 17k = 2x, x = c
Заканчиваем текущую группу блоков, в ней

уже есть m = 2c блоков.
Начинаем формировать новую группу блоков.

Слайд 18Остальные случаи
Используем зарезервированные ранее блоки (в случае k = 2x, x

< c)

Слайд 19Эффективное использование дисковой памяти
B-дерево, в нем хранятся слова

Информация о вхождениях слова

сохраняется в списке блоков

Слайд 20Эффективное использование памяти
Все базовые формы разделяются на n групп. Используем n

временных файлов. Вначале читаем документы, записываем информацию о вхождениях для i-й группы в i-й временный файл.
При создании индекса обрабатываем отдельную группу. Кэш используется только для одной группы.

Слайд 21Сравнение с существующими разработками
Общий объем 35,2 гб, 191 074 файла
Все файлы

были в кодировке Windows-1251 (CP1251).
Язык документов – русский.
Все файлы представляли собой обычный текст.

Слайд 22Описание конфигурации оборудования
Процессор: Intel Core 2 Duo E6700, 2.66 GHz,

кэш: L1 Data – 2 x 32 кб, L1 inst. 2 x 32 кб, L2 – 4096 кб.
Оперативная память: 4 гб, DDR2 800.
Жесткий диск: Seagate Barracuda 7200.10, 7200 RPM, кэш 16 мб., объем 750 гб.
FSB 1066 MHz.

Слайд 23Создание индекса
Создание инвертированного файла: время 9 часов, размер 40 гб.
Создание CLB

индекса: время 3 часа, 32 мин., размер 24 гб.

Для CLB индекса использовался размер блока 16 КБ.

Слайд 24Добавление в индекс одного файла среднего размера
Время добавления одного документа

1,2 мб. для CLB индекса: 9 мин.
Время добавления одного документа 1,2 мб. в инвертированный файл: 57 мин.

Слайд 25Добавление в индекс одного файла малого размера
Время добавления одного документа

размером 534 байта для CLB индекса: 22 с.
Время добавления одного документа размером 534 байта в инвертированный файл: 57 мин (т. е. такое же, как при размере файла 1,2 мб).

Слайд 26Время поиска
Время поиска в инвертированном файле и CLB-индексе практически совпадают.

Слайд 27Выводы
Проведенные эксперименты показывают высокую эффективность CLB индекса при добавлении в него

данных небольшого размера.

Слайд 28Сравнение с существующими разработками
Процессор: Intel Pentium 4, 3.0 GHz, кэш:

L1 Data – 16 кб, L1 trace – 12 Kuops, L2 - 2048 кб.
Оперативная память: 4 гб, DDR2 533.
Жесткий диск: Seagate Barracuda 7200.8, 7200 RPM, кэш 8 мб., объем 200 гб.
FSB: 800 MHz.

Слайд 29Создание CLB индекса
Размер индекса 26,2 гб.
Время создания 5 часов 49

мин.
Использовался размер блока 16 КБ.

Слайд 30SearchInform Desktop (http://www.searchinform.com)
Размер индекса 16,15 гб.
Время создания 9 часов.

Слайд 31Архивариус 3000 http://www.likasoft.com/
Размер индекса 24,83 гб.
Время создания 6 часов 46 мин.

Слайд 32Google Desktop
Размер индекса ~ 5 гб
Время создания 31 час 25 минуты

Слайд 33Выводы
Эксперименты показывают высокую скорость создания CLB индекса.

Слайд 34Эксперименты
Общий объем 86 гб, 400 049 файла
Все файлы были в кодировке

Windows-1251 (CP1251).
Язык документов – русский.
Все файлы представляли собой обычный текст.

Слайд 35Описание конфигурации оборудования
Процессор: Intel Core 2 Duo E6700, 2.66 GHz, кэш:

L1 Data – 2 x 32 кб, L1 inst. 2 x 32 кб, L2 – 4096 кб.
Оперативная память: 4 гб, DDR2 800.
Жесткий диск: Seagate Barracuda 7200.10, 7200 RPM, кэш 16 мб., объем 750 гб.
FSB 1066 MHz.

Слайд 36Создание CLB индекса
Размер индекса 56,5 гб.
Время создания 4 часа 28 минут.
Использовался

размер блока 64 КБ.

Слайд 37Инвертированные файлы
Размер индекса 117,7 гб.
Время создания 20 часов 6 минут.

Слайд 38Архивариус 3000 http://www.likasoft.com/
Размер индекса 62,65 гб.
Время создания 6 часов 10 минут.

Слайд 39Инструментарий
Автором разработана библиотека для создания индексов и поиска в текстах, в

которой реализована описанная структура данных и алгоритмы.

Слайд 40Форматы файлов
Библиотека может индексировать файлы в различных форматах, например RTF, PDF,

CHM, HTML, DJVU и кодировках, например UNICODE, UTF8, CP1251, ASCII, KOI8.

Слайд 41Архивы
Поддерживается обработка архивов форматов ZIP, CAB, RAR, 7Z, ARJ, TAR, и

др.

Слайд 42Архитектура
Библиотека реализована в виде COM сервера для операционных систем Windows
Написана на

C++.

Слайд 43Архитектура
Ядро, осуществляет создание индекса и поиск.
Модуль поддержки морфологии
Модуль распознавания кодировки.

При распознавании кодировки также учитывается морфология.

Слайд 44Форматы файлов
Модуль поддержки форматов файлов. Поддержка форматов файлов и архивов реализована

с помощью подключаемых дополнительных модулей, которые могут быть реализованы в виде динамических библиотек или написаны на Java. Модуль поддержки форматов файлов реализован в виде отдельного процесса для повышения надежности системы.

Слайд 45Архитектура
Модуль атрибутов документов, для сохранения описания документов.
Модуль репозитария, для сохранения текстов

документов. Создается для того, чтобы при поиске можно было быстро получать фрагмент текста, содержащий найденную фразу.

Слайд 46Архитектура
Модуль COM осуществляет доступ к остальным модулям извне с помощью COM,

что позволяет использовать библиотеку в различных языках программирования.

Слайд 47Системные требования
Реализованные алгоритмы достаточно нетребовательные к ресурсам компьютера. Для создания индекса

достаточно иметь 300–400 мегабайт свободной оперативной памяти.
Автором проводились эксперименты по созданию индексов на машине с оперативной памятью размером 512 мб.

Слайд 48SSD
Эффективность описанных в данном алгоритмов значительно возрастет с применением дисков SSD

(Solid-state drive), за счет более быстрого чтения блоков малого размера. При этом эффективность таких структур данных как инвертированные файлы возрастет менее, т. к. для добавления в инвертированный файл информации его все равно придется практически переписать целиком.

Слайд 49Литература
Веретенников А. Б., Лукач Ю. С. Еще один способ индексации больших

массивов текстов // Известия Уральского государственного университета. Сер. «Компьютерные науки». – 2006, №43. – С. 103–122.
Лукач Ю. С. Быстрый морфологический анализ флективных языков // Междунар. алгебраическая конф. : К 100-летию со дня рождения П. Г. Конторовича и 70-летию Л. Н. Шеврина : Тез. докл. – Екатеринбург : Изд-во Урал. ун-та, 2005. – С. 182–183.
Bayer, R., McCreight, E. Organization and maintenance of large ordered indexes. Acta Informatica 1, 3 (1972), 173-189.
Ferragina, P., Grossi, R. The string B-tree: a new data structure for string search in external memory and its applications. Journal of the ACM, 46, 2 (1999), 236-280.
Ferragina P., Grossi R. An experimental study of SB-trees. 7th ACM-SIAM symposium on Discrete Algorithms, 1996.
Prywes, N. S., Gray, H. J. The organization of a Multilist-type associative memory. IEEE Trans. on Communication and Electronics, 68 (1963), 488-492.

Скачать презентацию

Создание легко обновляемых текстовых индексов презентация

Содержание

Слайд 1Создание легко обновляемых текстовых индексовВеретенников А. Б.

Слайд 2ЗадачаПоиск слов и фраз в большой текстовой коллекции

Слайд 3Инвертированные файлыЧасто используются для поискаСложно добавлять новые данные

Слайд 4Инвертированные файлы Для каждой словоформы сохраняется информация о том, в каких документах

Слайд 5Пример информации о вхождении 1) Номер (ID) файла2) Позиция словоформы в файле

Слайд 6Задача Нужно сделать индекс, который бы позволял легко добавлять в него новые

Слайд 7CLB-деревоB-дерево, в нем хранятся словаИнформация о вхождениях слова сохраняется в списке

Слайд 8Морфология Морфологический анализатор Для каждой словоформы из словаря выдается набор базовых форм. Базовых форм

Слайд 9Кэширование Храним в B-дереве не словоформы, а базовые формы. Можем хранить в

Слайд 10Плюсы Можно быстро добавлять новые данные. Информация о новых вхождениях слова добавляется

Слайд 11Минусы1) Фрагментация – блоки могут располагаться в разных местах2) Неэффективное использование

Слайд 12Проблема фрагментации Пусть в списке блоков k блоков. Выберем число m = 2C Разделим

Слайд 13ПримерУ нас есть 25 блоков и m = 8. Разбиваем 25

Слайд 14Проблема фрагментацииИнформация о вхождениях слова сохраняется в списке блоков

Слайд 15АлгоритмПусть есть k заполненных подряд расположенных блоков B1, …, Bk, в

Слайд 16k = 2x, x < cищем 2k подряд располагающихся блоков N1,

Слайд 17k = 2x, x = cЗаканчиваем текущую группу блоков, в ней

Слайд 18Остальные случаиИспользуем зарезервированные ранее блоки (в случае k = 2x, x

Слайд 19Эффективное использование дисковой памятиB-дерево, в нем хранятся словаИнформация о вхождениях слова

Слайд 20Эффективное использование памяти Все базовые формы разделяются на n групп. Используем n

Слайд 21Сравнение с существующими разработками Общий объем 35,2 гб, 191 074 файлаВсе файлы

Слайд 22Описание конфигурации оборудования Процессор: Intel Core 2 Duo E6700, 2.66 GHz,

Слайд 23Создание индексаСоздание инвертированного файла: время 9 часов, размер 40 гб.Создание CLB

Слайд 24Добавление в индекс одного файла среднего размера Время добавления одного документа

Слайд 25Добавление в индекс одного файла малого размера Время добавления одного документа

Слайд 26Время поискаВремя поиска в инвертированном файле и CLB-индексе практически совпадают.

Слайд 27ВыводыПроведенные эксперименты показывают высокую эффективность CLB индекса при добавлении в него

Слайд 28Сравнение с существующими разработками Процессор: Intel Pentium 4, 3.0 GHz, кэш:

Слайд 29Создание CLB индекса Размер индекса 26,2 гб.Время создания 5 часов 49

Слайд 30SearchInform Desktop (http://www.searchinform.com)Размер индекса 16,15 гб.Время создания 9 часов.

Слайд 31Архивариус 3000 http://www.likasoft.com/ Размер индекса 24,83 гб.Время создания 6 часов 46 мин.

Слайд 32Google DesktopРазмер индекса ~ 5 гбВремя создания 31 час 25 минуты

Слайд 33Выводы Эксперименты показывают высокую скорость создания CLB индекса.

Слайд 34ЭкспериментыОбщий объем 86 гб, 400 049 файлаВсе файлы были в кодировке

Слайд 35Описание конфигурации оборудованияПроцессор: Intel Core 2 Duo E6700, 2.66 GHz, кэш:

Слайд 36Создание CLB индексаРазмер индекса 56,5 гб.Время создания 4 часа 28 минут.Использовался

Слайд 37Инвертированные файлыРазмер индекса 117,7 гб.Время создания 20 часов 6 минут.

Слайд 38Архивариус 3000 http://www.likasoft.com/Размер индекса 62,65 гб.Время создания 6 часов 10 минут.

Слайд 39ИнструментарийАвтором разработана библиотека для создания индексов и поиска в текстах, в

Слайд 40Форматы файловБиблиотека может индексировать файлы в различных форматах, например RTF, PDF,

Слайд 41АрхивыПоддерживается обработка архивов форматов ZIP, CAB, RAR, 7Z, ARJ, TAR, и

Слайд 42АрхитектураБиблиотека реализована в виде COM сервера для операционных систем WindowsНаписана на

Слайд 43АрхитектураЯдро, осуществляет создание индекса и поиск.Модуль поддержки морфологии Модуль распознавания кодировки.

Слайд 44Форматы файловМодуль поддержки форматов файлов. Поддержка форматов файлов и архивов реализована

Слайд 45АрхитектураМодуль атрибутов документов, для сохранения описания документов.Модуль репозитария, для сохранения текстов

Слайд 46АрхитектураМодуль COM осуществляет доступ к остальным модулям извне с помощью COM,

Слайд 47Системные требованияРеализованные алгоритмы достаточно нетребовательные к ресурсам компьютера. Для создания индекса

Слайд 48SSDЭффективность описанных в данном алгоритмов значительно возрастет с применением дисков SSD

Слайд 49ЛитератураВеретенников А. Б., Лукач Ю. С. Еще один способ индексации больших

Похожие презентации

Обратная связь

Что такое ThePresentation.ru?