Кластерная индексация файлов для оптимизации поиска информации в распределенной файловой системе презентация

Содержание

Актуальность: Высокие темпы роста объема текстовой информации Накопление неклассифицированных данных в распределенной структуре Отсутствие возможности оптимального смыслового определения архитектуры классов Необходимость в высококачественном и быстром поиске по большому

Слайд 1КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В РАСПРЕДЕЛЕННОЙ ФАЙЛОВОЙ СИСТЕМЕ
Кушвид

Евгений Сергеевич
ст. гр. СШИм-15-1

Руководитель:
к.т.н., доцент
Чалая Лариса Эрнестовна


Слайд 2Актуальность:
Высокие темпы роста объема текстовой информации

Накопление неклассифицированных данных в распределенной структуре

Отсутствие

возможности оптимального смыслового определения архитектуры классов

Необходимость в высококачественном и быстром поиске по большому массиву документов

02 / 24


Слайд 3Цель:
Целью работы является разработка метода эффективного поиска текстовой информации в распределенной

файловой системе с высокой производительностью и качеством при малых ресурсных затратах приложения

03 / 24


Слайд 4Общая архитектура
04 / 24


Слайд 5Выборка:
Иерархическая структурированная библиотека открытая для скачивания объемом 21гб
05 / 24


Слайд 6Сбор и очистка данных:
Данные
Полученные очищенные слова данные отравляются
На формирование входного вектора


06 / 24


Слайд 7Формирование входного вектора для кластеризатора
07 / 24


Слайд 8Существующие подходы к кластеризации:
08 / 24


Слайд 9Существующие подходы к индексации
09 / 24


Слайд 10Обоснование выбранного решение:
Устойчивость к шумам
Скорость
Точность
Адаптивность
Отсутствие необходимости в эвристиках

SOINN
10 / 24


Слайд 11Формирование структуры кластеров
11 / 24


Слайд 12Индексация
Каждому кластеру присваивается уникальный индекс в порядке вложенности

Пределом кластеризации является сведение

к один кластер это один файл и таким образом можно определить вложенность кластеров как уникальный HASH

12 / 24


Слайд 13Пример иерархической индексированной кластерной структуры файлов

По окончанию иерархической кластеризации каждый файл

отделяется в отдельный персональный кластер (исключение: файлы дубликаты/копии)

Индекс файла со звездочкой: 0001000300020002

13 / 24


Слайд 14Пример вида метаинформации в документе

14 / 24


Слайд 15Пример сохраненной метаинформации в текстовом файле
15 / 24


Слайд 16Поиск
16 / 24


Слайд 17Имплементация:

17 / 24


Слайд 18Визуальный интерфейс

18/ 24


Слайд 19Поисковый запрос

19 / 24


Слайд 20Расширение поискового запроса

20 / 24


Слайд 21Экран настроек
21 / 24


Слайд 22Анализ эффективности:
400мб
1,5гб
7 мс
18 мс
21гб
19 мс
23 мс
22 / 24


Слайд 23Сравнительная характеристика алгоритмов поиска
23 / 24


Слайд 24Выводы


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика