Подбор оптимального метода машинного обучения для выявления банковских угроз презентация

Введение В настоящее время на теневых форумах происходит активная купля/продажа дебетовых карт Одна из распространенных схем мошенничества: На форумах мошенники изъявляют желание продать или купить карты Как правило, карта используется для

Слайд 1Подбор оптимального метода машинного обучения для выявления банковских угроз

Выполнил: Сидоров П.Г. группа МИТ-13-1
Научный руководитель: Кузнецов А.А. ассист.

НИТУ МИСИС
2017 г.


Слайд 2Введение
В настоящее время на теневых форумах происходит активная купля/продажа дебетовых карт
Одна

из распространенных схем мошенничества:
На форумах мошенники изъявляют желание продать или купить карты
Как правило, карта используется для вывода средств, украденных в интернет-банке, электронных кошельках, карточных переводах между гражданами.
Теневые форумы также используются для поиска людей, которые будут осуществлять обналичивание


Слайд 3Постановка задачи
Исходные данные
Выборка постов теневых форумов тематики “Торговля пластиковыми картами”, сформированная

на основе парсинга форумов Dark Net и фильтрации по ключевым словам
Цели
Построить классификатор, идентифицирующий сообщения тематики “Куплю/продам дебетовые карты”
Задачи
Разметить исходные данные
Обработать исходные данные
Проанализировать характеристики представленной выборки
Провести эксперименты сравнения моделей
Выбрать оптимальный метод машинного обучения с лучшим результатом

Слайд 4Схема выявления постов по угрозе
БД - хранение сырых данных теневых форумов
Парсинг

контента теневых форумов

Sphinx - система полнотекстового поиска




Выборки по ключевым словам


Разметка


Модуль классификатор


БД - хранение идентифицированных сообщений по теме угрозы


Слайд 5Исходные данные


Слайд 6Разметка данных
Разметка данных требует привлечения асессоров.
Асессор - человек, знающий предметную

область угроз, способный, читая сообщение, определить, можно ли отнести пост к угрозе.
Правила, по которым он это делает, называются манифестом разметки.
Манифест разметки представляет собой семантический портрет угрозы, включающий в себя цель сообщения, варианты подачи информации и первичный словарь.

Итоговая выборка состоит из 1500 постов.
Помеченных угрозой постов: 444.

Слайд 7Предобработка данных
Удаление английских символов
Удаление символов разметки
Удаление цифр и остальных символов, не

являющихся русскими буквами



Слайд 8Обработка данных
Реализация классификатора включает реализацию компонентов:
Индексатор текстов
Токенизация текстов
Нормализация слов
Стемминг
Лемматизация
Взвешивание слов
Включение n-грамм
Счетчик

слов (Count Vectorizer)
TF-IDF






Слайд 9Обучение классификатора
Выбранные модели
Логистическая регрессия
Метод опорных векторов
Наивный Байесовский классификатор
Метод ближайших соседей
Разделение выборки
Обучающая

(⅔ выборки)
Тестовая (⅓ выборки)
Этапы построения классификатора
Обучение классификатора на обучающей выборке
Тестирование классификатора на тестовой выборке

Слайд 10Оценка результатов обучения
Accuracy (Доля правильных ответов) = (TP+TN)/(TP+TN+FP+FN)
Precision (Точность) = TP/(TP+FP)
Recall

(Полнота) = TP/(TP+FN)
F1-Score=((1+a2)*Precision*Recall)/(a2*Precision+Recall)

Слайд 11Оценка результатов обучения


Слайд 12Важность признаков
Топ первых 30-признаков, по мнению Метода Опорных Векторов (SVM):


Слайд 13Результаты
Была осуществлена разметка данных
Была осуществлена предобработка и индексация текстовых данных
Обучены несколько

классификаторов
Был получен оптимальный для данной задачи метод машинного обучения
Метод взвешивания TF-IDF
Метод классификации SVM (Метод опорных векторов)
Еженедельно база данных пополняется новыми данными, появляются новые слова и тексты постов. Классификация может ухудшиться. По мере роста накопленных данных следует переобучать классификатор.

Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика