Видеолекции: http://shad.yandex.ru/lectures
Презентации и текст: http://www.machinelearning.ru/wiki
Машинное обучение (курс лекций, К.В.Воронцов)
противоречивая закономерность (бесполезна,
не несет никакой информации о классах)
Определить, что есть закономерность (на основе статистических критериев).
Какой вид могут иметь правила (чаще это конъюнкции простых условий).
Научиться их строить (это, как правило, переборные алгоритмы).
Понять, как объединять правила в композиции (существует много разных идей – независимо, последовательно и т.д.).
такие правила соответствуют способу мышления врача или кредитного аналитика
дополнительно: рассматриваются чистые закономерности, которые выделяют все объекты одного класса и не выделяют другого
большой /
маленький
спирали против
часовой стрелки /
спирали по часовой стрелке
на разных выпуклостях /
на одной выпуклости
можно придумать и более хитрые задачи (фотографии мужчин/женщин, марки машин, виды животных и растений, картины в подлиннике и в копии и т.д.)
НУЖНО УМЕТЬ ВЫДЕЛЯТЬ ВАЖНЫЕ ПРИЗНАКИ
пространство поиска зависит от задачи
определяем, что является критерием
поиска (свертка двух критериев)
эвристики для сокращения полного перебора, который лучше, но долгий
признак – это тоже функция от объекта, поэтому закономерность может являться признаком
задачи дифференциальной диагностики
(должны подтвердиться хотя бы несколько симптомов)
число признаков j
должно быть маленьким, чтобы закономерность поняли люди
симптом – это признак, синдром – их совокупность для заболевания
снова используется небольшое число признаков j (некое подпространство)
метрика r, аналог того, что было в метрических методах (эталонность сравнения)
способ
вычисления оценки
используется прецедентная логика в проверке и интерпретации результата
если вокруг точки x0 описали шар радиусом w0, в котором много объектов одного класса (а других –
мало), то это закономерность
способ
вычисления оценки
для определения лучшей
хор.
плох.
хор.
плох.
хор.
плох.
Фишер энтропия бустинг
берем пары предикатов: чтобы первый был явно хорошей закономерностью, а второй – явно нет, но формула дала бы равную оценку информативности
примеры успешных сверток
выделяет предикат R
– log
используется для того, чтобы получить величину, которая
чем больше, тем лучше
чтобы предикат R был закономерностью, должен быть перекос в сторону p
розовая
область – это неслучайность (или статистическая закономерность), а красно-зеленая область –
это логические закономерности
это пространство, в котором находятся правила;
каждая точка пространства соответствует правилу с характеристиками p и n
(закономерности находятся
в правом нижнем углу)
p-n пространство
нашли недоминируемые закономерности (лучше них нет), сохранили их, затем удалили их с картинки и «обнажили» второй слой, из которого также выбираются недоминируемые и т.д.; далее из отобранного конструируем классификатор
вид законо-мерностей не важен (∧, шары
и т.п.)
общая эвристика, которая может быть реализована по-разному
по любому критерию
по идее, количество правил не должно увеличиваться – оставляем некоторое изначально заданное их количество
одно или несколько
дерево покрывает все пространство и развора-чивается в список конъюнкций, поэтому решающие деревья относят к логическим методам
когда нечего расщеплять, создается лист
когда есть что расщеплять, строится функционал β (по критерию ветвления I), который пытается разбить объекты так, чтобы какие-то классы желательно целиком ушли в одно из поддеревьев (см. след. слайд)
построен неинформативный предикат (даже когда получена просто малая мощность множества);
в этом случае листу приписывается (мажоритарный) класс – которого было больше в выборке U
было несколько классов
в начале передается вся выборка U
насколько много информации о разделении выборки на классы несет β; разность энтропии до того, как его узнали, и после дает выигрыш в информации
двойственный критерий предикат β тем более информативен, чем больше пар объектов, принадлежащих разным классам, пошли в разные поддеревья (разделимость ЛУЧШЕ объединения)
оценивается вероятность того, что объекты идут по одной или по другой ветке (для всех ветвей)
если для объекта отсутствует признак, объект исключается из оценки информативности
четко: 0 или 1
размыто: вероятность
дочерней вершины
фрагмент шахматной доски
от этой вершины удаляется поддерево и она заменяется на лист
если до этой вершины дошла какая-то часть объектов, считаем число ошибок
срезали правое поддерево
срезали левое поддерево
срезали все
вопросы при реализации: в каком порядке обходить, сверху или снизу, случайно или по критериям и т.п.
композиция таких конструкций используется в Матрикснет Яндекса
разбиение на информативные зоны
если выборка 1000, то бьем по 100
здесь в каждом разбиении может быть разное количество объектов
предыдущий вариант
хорошо работает
для больших данных (для выборок избыточной длины)
Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:
Email: Нажмите что бы посмотреть