Извлечение объектов из поисковых запросов презентация

Содержание

Что такое объекты? Названия организаций Имена людей Названия должностей Адреса Названия программ и т.д. ООО «Мэйл.Ру» 15-18 февраля 2012 г. ГОСТ 2.001-93 ISBN: 978-1405187848 Яхрома

Слайд 1Извлечение объектов из поисковых запросов
Михаил Обухов,
Михаил Долинин


Слайд 2Что такое объекты?
Названия организаций
Имена людей
Названия должностей
Адреса
Названия программ
и т.д.
ООО «Мэйл.Ру»
15-18 февраля 2012

г.

ГОСТ 2.001-93

ISBN: 978-1405187848

Яхрома


Слайд 3Справочники
Парсер запросов



детский нафтизин инструкция


Слайд 4Для чего нужны объекты?
Классификация поисковых запросов
Вопросно-ответные задачи
Переформулировки
Индексация
Обогащение поисковых запросов


Слайд 5Задача


Индексация
Парсинг запросов
*NEX – Named Entity eXtraction


Слайд 6Какие решения существуют?
Машинное обучение
Классификаторы (Naïve Bayes, ME Models, …)
Последовательные модели (HMM,

CRF, …)
Системы основанные на правилах
Ручное составление
Автоматическое
Использование онтологий
Wikipedia, DbPedia
Imdb


Слайд 7Особенности поисковых запросов
Малая длина (в среднем 3 слова)
Слабая грамматическая структура
Не являются

текстом на ЕЯ
Отражают потребности пользователей

Слайд 8Основные предположения
Объекты одного типа встречаются в одинаковых контекстах
Объект является самостоятельным поисковым

запросом

Слайд 9Общая структура метода


Слайд 10Фаза извлечения шаблонов


Слайд 11Фаза извлечения шаблонов
Исходные данные:
Лог поисковых запросов
Начальный список шаблонов (1-2 шаблона)
Результат: список

шаблонов с весами

Слайд 12Шаг 1:извлечение начальных объектов
Для каждого запроса из лога
Пробуем извлечь объект
Если получилось,

сохраняем
Очистка извлеченных объектов
Не встречающихся как самостоятельный запрос

смотреть <название>

смотреть сериал <название> \d+ сезон \d+ серия онлайн бесплатно в хорошем качестве

Начальные шаблоны должны быть точными!


Слайд 13Шаг 2: извлечение кандидатов
Для каждого начального объекта
Из каждого запроса, где он

встречается
Создаем шаблон

смотреть сериал счастливы вместе онлайн серия 2

смотреть сериал <название> онлайн серия \d+



Слайд 14Шаг 3: Взвешивание кандидатов
Рассчитываем вес для каждого кандидата
Удаляем кандидатов имеющих низкий

вес

*Доверенный – объект извлеченный N и более различными шаблонами


Слайд 15сериал (.+) \d+ сезон смотреть онлайн бесплатно:0.95
сериал (.+) \d+ сезон \d+

серия смотреть онлайн:0.93
(.+) \d+ сезон смотреть онлайн:0.90

(.+) смотреть:0.07
скачать (.+):0.03


Слайд 16Фаза извлечения объектов


Слайд 17Фаза извлечения объектов
Исходные данные:
Лог поисковых запросов
Список шаблонов (полученный ранее)
Результат: список объектов

с весами

Слайд 18Шаг 1: извлечение кандидатов
Для каждого шаблона из списка
Сохраняем все объекты, которые

он может извлечь
Очистка извлеченных объектов
Не встречающихся как самостоятельный запрос
Не частотные объекты
Содержащие слова из списка шаблонов

Слайд 19Шаг 2: Взвешивание объектов
Рассчитываем вес для каждого объекта в списке
Удаляем объекты

имеющие низкий вес

Слайд 21Метод оценки результата
Точность первых N объектов (10, 50, 100 …)
Точность случайной

выборки (100)

Слайд 22Результаты:


Слайд 23Достоинства и недостатки
Достоинства
Простая реализация
Масштабируемость
Хорошая точность
Недостатки
Требует ручного вмешательства (начальный список шаблонов)
Требует задания

порогов

Слайд 24СПАСИБО! ВОПРОСЫ?
Михаил Обухов obuhov@corp.mail.ru
Михаил Долинин
dolinin@corp.mail.ru


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика