КАЧЕСТВО ПОИСКА по гамбургскому счету презентация

Содержание

Поисковые технологии - 2010 Метрики для оценки качества поиска Гамбургский счет Красивая легенда, придуманная советским литературоведом Виктором Шкловским. «Гамбургский счет — чрезвычайно важное понятие. Все борцы, когда борются, жулят и

Слайд 1КАЧЕСТВО ПОИСКА по «гамбургскому счету»
Андрей Иванов, andre@ashmanov.com
Поисковые технологии - 2010 26-28 февраля


Слайд 2Поисковые технологии - 2010
Метрики для оценки качества поиска
Гамбургский счет
Красивая легенда,

придуманная советским литературоведом Виктором Шкловским. «Гамбургский счет — чрезвычайно важное понятие. Все борцы, когда борются, жулят и ложатся на лопатки по приказанию антрепренера. Раз в году в гамбургском трактире собираются борцы. Они борются при закрытых дверях и завешенных окнах. Долго, некрасиво и тяжело. Здесь устанавливаются истинные классы борцов, — чтобы не исхалтуриться...»
Из словаря: «ГС – эквивалент беспристрастной оценки чего-либо без скидок и уступок, с предельной требовательностью…»
Из словаря: «ГС - выявление реального, а не официального места индивида в статусной иерархии (политической, профессиональной, научной, спортивной и др.).»

Слайд 3Поисковые технологии - 2010
Метрики для оценки качества поиска
Как сегодня оценивается качество

поиска

Методики оценки качества поиска основаны:
на использовании статистических данных о поведении пользователей в поиске. Эти данные закрыты;
на оценках результатов поиска с помощью асессоров. Методики работы асессоров, полученные с их помощью показатели, постановка оценочных задач – все это тоже закрытые данные.

Каждый поисковик изобрел собственную систему оценки. Конечно же, - правильную. Но эти правильные системы невозможно сравнить друг с другом.

Общепринятой («гамбургской») методики – нет. Потребность в ней – есть. Как для самих поисковиков, так и для всех, кто интересуется рынком поиска.


Слайд 4Поисковые технологии - 2010
Метрики для оценки качества поиска
Три принципа системы независимой

оценки

Использование открытых, легко проверяемых данных.

Использование открытых методик.

Наличие процедуры выбора решения по спорным вопросам

Пример спорного вопроса. Запрос «дизайн», 1 позиция:

Яндекс – Википедия
Google - Журнал ChaosLend - все про интерьер, дизайн интерьера и ремонт квартир и других помещений…
Рамблер - Самизнаетекто
Gogo – SALON.ru - проект Издательского дома "Салон-Пресс", в основе которого лежит многолетний опыт и профессионализм журнала SALON-interior.
Апорт - GARDENER.ru - ландшафтный дизайн и архитектура сада
Yahoo - коллекция работ alex.kuh

ЧЬЯ ССЫЛКА БОЛЬШЕ НРАВИТСЯ ПОЛЬЗОВАТЕЛЯМ?..


Слайд 5Поисковые технологии - 2010
Метрики для оценки качества поиска
Анализаторы поисковых машин
URL

– www.analyzethis.ru
Старт – 2006-2007 гг. Сначала как игрушка для рассылки, но идея оказалась интересной и захотелось продолжать.
Идея – одинаковые задания даются разным поисковым машинам. Результаты сравниваются.
Первый – анализатор качества навигационного поиска. Это самая «бесспорная» задача сравнения.

Дальше – больше…


Слайд 6Поисковые технологии - 2010
Метрики для оценки качества поиска
11 «бесспорных» задач
навигационный

поиск – проверяется, найден или нет известный сайт в ответ на навигационный запрос;
тематический (экспертный) поиск – проверяется совпадение ссылок алгоритмической выдачи в ответ на точные запросы со ссылками ручной экспертной подборки (Городские библиотеки Уфы : 5 сайтов - и т.п.);
подсказки – проверяется правильность предлагаемых поисковиком подсказок для запросов с ошибками-опечатками;
опечатки – в случае очевидных опечаток не имеет смысла предлагать подсказку, проще автоматически исправить ее и предложить пользователю выдачу в ответ на измененный правильный запрос; проверяется совпадение выдачи по запросу с явной опечаткой с выдачей в ответ на правильный запрос;
цитатный поиск – проверяется, найден или нет текст первоисточника известной цитаты;
поиск оригиналов – проверяется, найден или нет оригинальный документ, откуда взята цитата для поискового запроса…


Слайд 7Поисковые технологии - 2010
Метрики для оценки качества поиска
11 «бесспорных» задач
синонимы

– проверяется совпадение выдачи по синонимичным поисковым запросам;
поисковый спам – проверяется наличие ссылок на спам-сайты в Тор10 выдачи по запросу;
SEO-прессинг – проверяется наличие ссылок на однотипные коммерческие предложения в выдаче по нечетким запросам;
порнография – проверяется наличие ссылок на порносайты в выдаче по запросам, не относящимся к порнотематике;
полнота индекса – проверяется наличие результатов поиска в ответ на очень редкие поисковые запросы.

Слайд 8Поисковые технологии - 2010
Метрики для оценки качества поиска
Если взглянуть бегло…


Слайд 9Поисковые технологии - 2010
Метрики для оценки качества поиска
Если наблюдать долго… (опечатки

- Гугл)

Слайд 10Поисковые технологии - 2010
Метрики для оценки качества поиска
Если наблюдать долго… (навиг.

- Yahoo)

Слайд 11Поисковые технологии - 2010
Метрики для оценки качества поиска
Если наблюдать долго… (тем.

– Рамблер)

Слайд 12Поисковые технологии - 2010
Метрики для оценки качества поиска
Если наблюдать долго… (цитат.

- Яндекс)

Слайд 13Поисковые технологии - 2010
Метрики для оценки качества поиска
Если наблюдать долго… (ор.

– Янд. Gogo)

Слайд 14Поисковые технологии - 2010
Метрики для оценки качества поиска
Если наблюдать долго… (спам

– Яндекс)

Слайд 15Поисковые технологии - 2010
Метрики для оценки качества поиска
Если наблюдать долго… (SEO

– Рамблер)

Слайд 16Поисковые технологии - 2010
Метрики для оценки качества поиска
Если наблюдать долго… (порн.

– Янд., Рам.)

Слайд 17Поисковые технологии - 2010
Метрики для оценки качества поиска
Как это понимать?..
«Общее»

качество поиска разложимо на ряд частных задач, за результатами выполнения которых можно наблюдать раздельно.
Примеры показывают два подхода, используемые поисковиками в шлифовке качества поиска: а) «пресс», б) «штурм», т.е. и SE тоже применяют принцип разложения на частные задачи.










Вывод: надо увеличивать количество задач сравнения. И по совокупности их результатов мы (дай Бог!) сможем делать «общую» оценку качества поиска для каждой поисковой машины.

Так Яндекс борется со спамом А вот так Яндекс борется с порно


Слайд 18Поисковые технологии - 2010
Метрики для оценки качества поиска
«Спорные» задачи: омонимия и

полисемия

Слайд 19Поисковые технологии - 2010
Метрики для оценки качества поиска
«Спорные» задачи: региональный поиск

Яндекс и Google – разные подходы к формированию региональной выдачи

Слайд 20Поисковые технологии - 2010
Метрики для оценки качества поиска
«Спорные» задачи: региональный поиск

Сколько региональных результатов должно быть в выдаче по запросу доставка суши ?
А по запросу суши ?..

Слайд 21Поисковые технологии - 2010
Метрики для оценки качества поиска
Развитие проекта
Классификация Бродера

устарела. Частных типовых задач (метрик), по которым можно проводить сравнение качества поиска разных поисковых машин, не три (навигационный, информационный, транзакционный поиск). Их – десятки, если не сотни.

Большинство метрик – неоднозначные. Т.е. логичным вариантом развития проекта является создание на его базе сообщества для выяснения общественного мнения. Возможно, это и есть механизм искомой «процедуры выбора решения».

Чем больше метрик, тем сложнее задача сведения их результатов в единый показатель. Метрики неоднородны; ясно, что вклады каждой в сводную цифру различны. Как их учесть?.. И надо ли?..


Слайд 22Поисковые технологии - 2010
Метрики для оценки качества поиска
Попытка учета
Отсутствие гипотезы

определения важности коэффициентов. Чем больше метрик, тем сложнее должна быть гипотеза.

Разброс по качеству - от 5,4% до 91,5%. (92% - это почти 100. Яндекс уже идеален?.. :0) )

Слайд 23Поисковые технологии - 2010
Метрики для оценки качества поиска
Попытка неучета
«Тупое» среднее

по всем метрикам. Чем больше метрик, тем меньше значение каждой.
Разброс показателей – от 39,1% до 65,5%.

Слайд 24Поисковые технологии - 2010
Метрики для оценки качества поиска
Чего бы хотелось от

поисковиков

Возможность делать автозапросы.

Fair play. Это анализаторы поисковых машин, а не сервисов по настройке на используемые маркеры.

Окошко на «кухню поиска». Большей открытости – идей новых метрик, интересных данных статистики о поведении пользователей, заказов на опросы.


Слайд 25Поисковые технологии - 2010
Андрей Иванов
andre@ashmanov.com
Информация о компании, услугах
и технологиях
www.ashmanov.com
Информация о

конференциях и семинарах,
рассылки
www.optimization.ru

Контакты
optimization@ashmanov.com
+7(495)975-0978

“Спасибо! Вопросы?”


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика