Презентация на тему Комплексная технология автоматической классификации текстов ИПИ РАН

Презентация на тему Презентация на тему Комплексная технология автоматической классификации текстов ИПИ РАН, предмет презентации: Разное. Этот материал содержит 20 слайдов. Красочные слайды и илюстрации помогут Вам заинтересовать свою аудиторию. Для просмотра воспользуйтесь проигрывателем, если материал оказался полезным для Вас - поделитесь им с друзьями с помощью социальных кнопок и добавьте наш сайт презентаций ThePresentation.ru в закладки!

Слайды и текст этой презентации

Слайд 1
Текст слайда:

Комплексная технология автоматической классификации текстов ИПИ РАН

Васильев В.Г.


Слайд 2
Текст слайда:

Особенности реальных массивов текстов

Недостаточное количество обучающих примеров
Наличие ошибок в эталонной классификации
Несоответствие обучающих и обрабатываемых данных
Совместное использование нескольких принципов деления на классы
Политематический и зашумленный характер текстов
Сложность интерпретации результатов классификации
Наличие повторяющейся и дублирующей информации


Слайд 3
Текст слайда:

Организационные проблемы

Ограниченный доступ разработчиков систем автоматической классификации к исходным данным и массивам текстов
Выполнение настройки и использования средств классификации пользователями, которые не являются специалистами в области автоматической обработки текстов




Слайд 4
Текст слайда:

Комплексная технология классификации текстов




Слайд 5
Текст слайда:

Недостаточное количество обучающих примеров

Прикладные проблемы:
невозможность построения правил классификации для большинства методов, основанных на обучении по примерам;
низкая надежность оценки качества обучения.

Решение: поддержка совместного использования трех типов решающих правил для рубрик:
статистических (обучаемых на примерах документов),
логических (задаются экспертами на специальном информационно-поисковом языке),
шаблонных (задаются экспертами в виде регулярных выражений).


Слайд 6
Текст слайда:

Наличие ошибок в эталонной классификации

Прикладные проблемы:
формирование ошибочных правил классификации;
результаты оценки качества обучения оказываются некорректными.

Решение:
выполнение при обучении оценки качества классификации и ошибок в эталонном множестве документов;
учет степени тематической близости рубрик друг к другу;
реализация интерактивной процедуры обучения классификатора.


Слайд 7
Текст слайда:

Пример оценки эталонного множества документов



Слайд 8
Текст слайда:

Несоответствие обучающих и обрабатываемых данных

Прикладные проблемы:
результаты классификации текстов могут быть неопределенными;
результаты оценки качества обучения являются завышенными.

Решение:
выполнение оценки качества классификации в процессе обучения;
обеспечение переобучения в процессе обработки новой информации;
использование дополнительных словарей квазисинонимов для повышения полноты классификации.


Слайд 9
Текст слайда:

Иерархический характер и использование нескольких принципов деления на классы

Прикладные проблемы:
сложность построения эффективных процедур классификации, основанных на использовании одной модели или метода для всех рубрик и уровней классификатора.

Решение:
поддержка нескольких типов признаков (лексических, грамматических, синтаксических);
комбинирование различных методов классификации;
поддержка режима фасетной классификации.


Слайд 10
Текст слайда:

Комбинированный иерархический метод классификации



Слайд 11
Текст слайда:

Базовые методы классификации




Слайд 12
Текст слайда:

Пример реализации базовых методов




Слайд 13
Текст слайда:

Комбинированные классификаторы рубрик


Слайд 14
Текст слайда:

Интегральная оценка качества работы для массива «Reuters-21578-6»




Слайд 15
Текст слайда:

Оценка качества работы базовых методов для рубрик «Reuters-21578»




Слайд 16
Текст слайда:

Политематический и зашумленный характер текстов

Прикладные проблемы:
сложность формирования решающих правил из-за негативного влияния посторонней информации и наложение рубрик друг на друга;
неопределенность расположения в тексте информации, релевантной рубрике.

Решение:
идентификация форматов, языков и кодировок документов;
очистка текста документов от элементов оформления;
исключение из текстов вспомогательной информации;
использование робастных алгоритмов оценивания параметров;
выделение значимых фрагментов в текстах.


Слайд 17
Текст слайда:

Выделение значимых фрагментов


Слайд 18
Текст слайда:

Пример разметки текста с помощью иерархического покрытия


Слайд 19
Текст слайда:

Наличие повторяющейся и дублирующей информации во входном потоке текстов

Прикладные проблемы:
сложность просмотра и анализа результатов классификации.

Решение:
упорядочение документов в рубриках с учетом их тематической близости друг к другу;
выявление "почти дубликатов" документов;
выявление основных тем документов в рубриках;
автоматическое формирование сводных документов.


Слайд 20
Текст слайда:

Пример выявления основных тем в рубрике при классификации


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика