Тема 11. Критерий согласия и таблицы сопряженности презентация

Содержание

Горошины Менделя Австрийский монах, Грегор Мендель (1822-1884), изучал генетику, и его принципы являются основой для современной генетики. Мендель использовал свободное время, выращивая горох в монастыре. В одном из своих экспериментов он

Слайд 1Тема 11. Критерий согласия и таблицы сопряженности
11.1. Критерий согласия
11.2. Проверка

нормальности
11.3. Таблицы сопряженности
11.4. Проверка независимости признаков
11.5. Проверка однородности
11.6. Коэффициенты связи


Слайд 2Горошины Менделя
Австрийский монах, Грегор Мендель (1822-1884), изучал генетику, и его принципы

являются основой для современной генетики. Мендель использовал свободное время, выращивая горох в монастыре. В одном из своих экспериментов он скрестил разные виды гороха – с гладкими желтыми горошинками и со сморщенными зелеными горошинками. Он заметил, что результаты были систематическими, то есть некоторые из них имели гладкие желтые горошины, другие – гладкие зеленые горошины, третьи – сморщенные желтые горошины, а четвертые – сморщенные зеленые горошины. Более того, после нескольких экспериментов процентное соотношение каждого вида оставалось практически неизменным.
Мендель сформулировал свою теорию, основанную на предположении доминантных и рецессивных признаков, и попытался предсказать результат. Тогда он скрестил свой горох и исследовал 556 горошин следующего поколения. Наконец, он сравнил полученные им результаты с теоретическими результатами, что бы узнать, правдива ли теория. Для этого он использовал «простой» тест хи-квадрат, который мы сейчас рассмотрим.


Источник: J.Hodges, Jr.D.Krech и R.Crutchfield, Stat Lab, An Empirical Introduction to Statistics (New York: McGraw-Hill, 1975), pp.228-229.

Слайд 311.1. Критерий согласия



Слайд 4Пример. Вкусовые предпочтения
Маркетолог хочет узнать, какому из пяти вкусов нового напитка

отдают предпочтение покупатели. Ниже приведены данные, полученные из опроса 100 человек:



Если нет каких-либо особых вкусовых предпочтений, то каждый вид напитка покупают с одинаковой частотой. В таком случае каждая частота должна быть равна 100/5 = 20, то есть приблизительно по 20 человек выберут каждый вид сока.

Наблюдаем

Ожидаем


Слайд 5Наблюдаемые и ожидаемые частоты
Наблюдаемые частоты - частоты полученные по выборке.

Ожидаемые частоты

- частоты, полученные путем вычисления на основе теоретических представлений о предполагаемом распределении.

Наблюдаемые частоты

Ожидаемые частоты


Слайд 6Что проверяет критерий согласия
Критерий согласия позволяет выяснить, насколько согласуются между собой

наблюдаемые частоты и ожидаемые, иными словами, существенны или нет различия между ними.

Гипотезы для примера с предпочтениями запишутся так:
Н0: У покупателей нет предпочтений по поводу вкусов сока.
Н1: У покупателей есть предпочтения.

Необходимые условия
1. Выборка случайна.
2. Наблюдаемая частота должна быть не меньше 5.

Слайд 7Статистика
Для проверки гипотезы используется χ2-критерий с числом степеней свободы df

= n – 1:




Н – наблюдаемая частота
О – ожидаемая частота



Слайд 8χ2 распределение
Следующая случайная величина имеет распределение хи-квадрат:



z1 z2 z3 … zn

- набор из n независимых случайных величин, имеющих стандартное нормальное распределение.

Свойства:
1. Всегда неотрицательно.
2. Зависит от n – числа степеней свободы.
3. Среднее значение = n.
4. Стандартное отклонение = 2n.

Слайд 9Вид χ2 распределения
В зависимости от числа степеней свободы n вид распределения

изменяется. При увеличении n распределение приближается к нормальному.

n = 4

n = 6

n = 15


Слайд 10Критическая область
Этот критерий имеет только правостороннюю критическую область. Критическая область соответствует

значениям статистики, для которых значение χ2 велико. Это означает, что данные плохо согласуются.


1 - α = 0,95

α = 0,05


Слайд 11Что значит «частоты согласуются»
Если наблюдаемые и ожидаемые значения близки друг к

другу, значение χ2-критерия будет небольшим. Гипотеза Н0 не будет отвергнута. Имеется хорошее соответствие наблюдаемых данных и исследовательской модели.


Хорошее соответствие

Плохое соответствие


Слайд 12Решение задачи
Шаг 1. Нулевая и альтернативная гипотезы:
Н0: У покупателей нет предпочтений

по поводу вкусов сока.
Н1: У покупателей есть предпочтения.
Шаг 2. Уровень значимости α=0,05.
Шаг 3. Критическое значение равно 9,488 (по таблице χ2-распределения,
df = 5 – 1 = 4 и α = 0,05).
Шаг 4. По выборке находим значение статистики:


Шаг 5. Сравним полученное значение с критической областью: 18 > 9,488. Значение попало в критическую область.
Шаг 6. Формулируем ответ. Существуют значимые предпочтения покупателей по поводу вида напитка.



Слайд 13Применение критерия согласия
1. Для проверки гипотезы о согласовании наблюдаемого распределения и

теоретического. Это было в примере с напитками.

2. Для проверки гипотезы о совпадении законов распределения двух генеральных совокупностей. Предположение о виде теоретического распределения (теоретическая модель данных) в этом случае не требуется. Критерий дает нам представление о «расстоянии между двумя наборами данных» и на основе значения этого расстояния позволяет делать вывод о «согласии» между двумя распределениями.

Слайд 1411.2. Проверка нормальности



Слайд 15Гипотезы
Критерий согласия часто используется для проверки гипотез о виде распределения генеральной

совокупности. По имеющейся случайной выборке можно проверить, имеет ли исследуемый признак нормальное распределение.

Гипотезы выглядят так:
Н0 : признак имеет нормальное распределение.
Н1 : признак не имеет нормального распределения.

Слайд 16Статистика
Для проверки гипотезы используется χ2-критерий с числом степеней свободы df

= n – 1:




Н – наблюдаемая частота
О – ожидаемая частота



Слайд 17Задача
Используя критерий согласия, определить, нормально ли распределен признак, значения которого приведены

в виде частотной таблицы.










Принять α = 0,05.

Слайд 18Шаг 1. Среднее и стандартное отклонение выборки






Слайд 19Шаг 2. Ожидаемые (теоретические) частоты




0,3332 = 0,7422 - 0,4090
Теоретические частоты


Слайд 20Шаг 3. Значение статистики по выборке

Нужно объединить с предыдущим интервалом


Слайд 21Шаг 3. Значение статистики по выборке


Слайд 22Шаги 4-5. Критическая область и выводы
Критическое значение при df = 4

и α = 0,05 равно 9,488.

Поскольку полученное значение статистики не попало в критическую область, нулевую гипотезу мы не отвергаем.

Ответ. Распределение можно считать нормальным.

Слайд 2311.3. Таблицы сопряженности


Слайд 24Обработка данных
Данные эксперимента Таблица сопряженности

Таблица сопряженности составляется для двух признаков и содержит

частоты для каждого набора значений.

Слайд 25Таблица сопряженности
В общем виде таблица сопряженности состоит из r рядов и

c столбцов. Будем называть ее R×C таблица. Каждая клетка таблицы определяется номером ее ряда (Row) и столбца (Column).

Данная таблица имеет два ряда и три столбца: r = 2, c = 3.


Слайд 26

Исследуемые признаки
Признак 2.
Отношение к новому препарату
Признак 1.

Категория
персонала


Слайд 2711.4. Проверка независимости признаков


Слайд 28Наблюдаемые частоты (Observed frequencies)
В результате эксперимента мы получаем наблюдаемые частоты. Подсчитаем

суммы по срокам и столбцам.

Слайд 29Ожидаемые частоты (Expected frequencies)
Вычислим теоретические частоты. В первую клетку надо поставить

частоту:


Слайд 30Ожидаемые частоты (Expected frequencies)
Вычислим теоретические частоты. В первую клетку надо поставить

частоту:


Слайд 31Независимость признаков
Признаки независимы, если распределение значений одного признака не зависит от

значений, принимаемых другим признаком.

Отношение к препарату не отличается

Отношение к препарату сильно отличается

Признаки независимы

Признаки зависимы


Слайд 32Шаг 1. Гипотезы
Критерий согласия используется для проверки гипотезы о независимости признаков.

Гипотезы

выглядят так:
Н0 : признаки независимы.
Н1 : признаки зависимы.

Слайд 33Критерий проверки гипотезы
Если бы признаки независимыми, то частоты должны быть распределены

так, как показано в таблице ожидаемых частот. Критерий согласия позволяет оценить, насколько сильно различаются наблюдаемые частоты от ожидаемых. Если сильно, тогда мы признаем наличие зависимости признаков.

Наблюдаемые частоты

Ожидаемые частоты


Слайд 34Шаги 2-3. Уровень значимости и критическая область
Критерий имеет правостороннюю критическую область.

Число степеней свободы определяется по формуле: df = (r – 1)(c – 1) = (2 – 1)(3 – 1) = 2. Зададим α = 0,05, критическое значение равно 5,991.


1 - α = 0,95

α = 0,05


5,991

26,67



Слайд 35Шаг 4. Вычисление статистики
Наблюдаемые частоты
Ожидаемые частоты


Слайд 36

Шаг 5-6. Получение выводов
Поскольку значение статистики попало в критическую область, 26,67

> 5,991, мы отклоняем гипотезу о независимости признаков.

Вывод. Признаки зависимы. Отношение к новому лекарству существенно зависит от категории персонала.

5,991

26,67


Слайд 3711.5. Проверка однородности


Слайд 38Критерий однородности
Второй χ2-критерий, который использует таблицу сопряженности, называется критерий однородности долей.



В данной ситуации выборки делаются из разных совокупностей, и исследователю интересно узнать, одинаковы ли доли признака для каждой совокупности. Размеры выборки устанавливаются заранее, до того, как становится известной сама выборка.

Например, исследователь может опросить 50 первокурсников, 50 второкурсников, 50 третьекурсников и 50 выпускников, а потом найти соотношение курящих в каждой группе. Потом исследователь сравнивает доли курящих в каждой группе, чтобы посмотреть, одинаковы ли они.

Слайд 39Гипотезы
Гипотезы имеют вид:
Н0: р1 = р2 = р3 = р4
Н1: по

крайней мере, одна доля отличается от других

Если принимаем нулевую гипотезу, то тем самым мы допускаем, что доли равны, и различия случайны. Это будет означать, что доли курящих студентов одинаковы в каждой группе.

Если нулевая гипотеза не принимается, это означает, что доли не равны друг другу.

Процесс проверки гипотезы тот же, что и для критерия независимости.


Слайд 4011.6. Коэффициенты связи
Коэффициент фи
Коэффициент Крамера
Коэффициент сопряженности Пирсона


Слайд 41Зависимость χ2 от объема выборки



Использование χ2 в качестве меры связи двух

признаков имеет недостатки. Главный - величина χ2 зависит от объема выборки для таблиц с одинаковыми пропорциями.

Поскольку таблицы имеют одинаковые пропорции, то сила связи между признаками постоянна для всех трех таблиц, а значения χ2 при этом различны. Рассмотрим других «кандидатов» на роль коэффициента связи между признаками.


Слайд 42
Коэффициент фи



Свойства:
Используется для таблиц 2х2
Равен нулю для независимых переменных
Равен +1 или

-1 для полностью зависимых переменных:

Слайд 43
Вычисление коэффициента фи



Для вычисления коэффициента φ используют следующую формулу:
Главное, коэффициент для

всех трех таблиц, рассмотренных выше, одинаковый:

Слайд 44
Коэффициент Крамера



Свойства:
Используется для таблиц любого размера
Для таблиц 2х2 совпадает с коэффициентом

фи
Равен нулю для независимых переменных
Равен 1 для полностью зависимых переменных

где r – количество строк,
c – количество столбцов


Слайд 45
Коэффициент сопряженности Пирсона



Свойства:
Используется для таблиц любого размера
Равен нулю для независимых переменных
Максимум

коэффициента меньше 1

Чтобы изменялся от 0 до 1 используется корректировка:

Слайд 46Коэффициент лямбда


Слайд 47Коэффициент Юла


Слайд 48Пример
25 респондентов исследовали на связь между двумя признаками: пол и отношение

к курению. Таблица сопряженности и коэффициенты представлены по отчету SPSS.




Слайд 49Какой коэффициент «лучше»?
Каждый коэффициент отражает своё понятие силы связи, степени зависимости.



За каждым из них стоит своя модель изучаемого явления. Их не следует интерпретировать в отрыве от этой модели.

Так, хотя коэффициент лямбда и может быть равен нулю, несмотря на то, что переменные зависимы, но в рамках модели прогноза, значение ноль совершенно справедливо указывает на то, что знание значения переменной X не позволяет улучшить прогноз значения переменной Y.

В большинстве случаев, если при сравнении степени связи в 2х2 таблицах один из коэффициентов связи для одной из таблиц больше, тогда то же самое будет верно и для всех остальных коэффициентов.

Слайд 50Понятия и термины


Слайд 51Задание на 5 минут
Приведите пример парных (зависимых) выборок.


Слайд 52Задачи
11.1. Опрос, проведенный совместно USA Today, CNN, Gallup, показал, что

74% респондентов считает, что автомобилисты ездят агрессивнее, чем 5 лет назад, 23% считает, что они ездят точно так же, 3% считает, что автомобилисты ездят менее агрессивно, чем 5 лет назад. Опрос 180 опытных водителей показал, что 125 из них считают, что автомобилисты ездят агрессивнее, чем 5 лет назад, 36 – примерно одинаково, 19 человек считают, что автомобилист ездят менее агрессивно, чем 5 лет назад. При α = 0,10 проверьте утверждение, что мнение опытных водителей совпадает с мнением опрошенных USA Today, CNN, Gallup.
Источник: Основано на информации из USA Today, August 29, 1997.

11.2. USA Today Snapshot утверждает, что 53% покупателей предпочитает расплачиваться за покупки наличными, 30% использует – чек, 16% – кредитки, а у 1% нет особых предпочтений. Владелец большого супермаркета опросил 800 покупателей относительно того, каким образом они предпочитают оплачивать покупки. Результаты показали, что 400 покупателей платили наличными, 210 – чеком, 170 – кредиткой, и 20 – не отдает определенного предпочтения. При α = 0,01 проверьте утверждение, что у покупателей данного супермаркета и у опрошенных одинаковые предпочтения.
Источник: USA Today, July 19, 1995.


Слайд 53Задачи
11.3. Штатный сотрудник службы неотложной помощи желает определить, одинаково ли распределено

количество несчастных случаев в течение недели. Была выбрана наугад неделя, и получены следующие данные. Достаточно ли оснований, чтобы отвергнуть гипотезу, доказывающую, что количество несчастных случаев распределено равномерно в течение недели, при α = 0,05?
День Пн Вт Ср Чт Пт Сб Вс
Частота 28 32 15 14 38 43 19

11.4. Владелец спортивного инвентаря желает узнать, отдается ли предпочтение какому-то конкретному месяцу при покупке охотничьего ружья. Результаты продаж приведены ниже. При α = 0,05 проверьте утверждение, что покупка оружия не зависит от конкретного месяца.

Месяц Сентябрь Октябрь Ноябрь Декабрь
Частота 18 23 28 15


Слайд 54Задачи
11-5. Американский филиал Красного Креста сообщает о том, что 42% американцев

имеют кровь типа О, 44% – типа А, 10% – типа В и 4% – типа АВ. Районный медицинский исследователь говорит о том, что распределение типов крови в его регионе соответствует общим показателям в стране. Делается наугад выборка из 200 человек. Данные приведены ниже. При α = 0,10, проверьте гипотезу исследователя.
Тип крови А О В АВ
Частота 58 65 55 22

Источник: Robert D.Shook and Michael L.Shook, The Book of Odds (New York: Penguin Putnam, Inc., 1961), p.161.

Слайд 55Задачи
11-6. Исследователю интересно узнать, есть ли связь между возрастом респондента и

количеством потребляемого кофе. Было опрошено 152 человека, данные приведены ниже в таблице. При α = 0,01 определите, есть ли связь между возрастом и количеством потребляемого человеком кофе.

Слайд 56Задачи
11-7. Производитель автомобилей желает узнать, есть ли связь между возрастом покупателей

и ценой купленной машины. Было опрошено 222 водителя. Данные приведены ниже в таблице. При α = 0,05 определите, есть ли зависимость между ценой машины и возрастом водителя?

Слайд 57Задачи
11-8. Преподавателю высшего учебного заведения интересно узнать, зависит ли способ получения

информации от образования людей. Опрос 400 студентов ВУЗов и школ показал результаты, приведенные в таблице. При α = 0,05 проверьте утверждение, что способ получения информации не зависит от их образования.

Слайд 58Задачи
11-9. Служащий университета хочет определить наличие связи между ученой степенью преподавателя

и тем, как студенты оценивают получаемые от него знания. Опрошенным студентам было предложено оценить разных преподавателей. Данные опроса приведены ниже. При α = 0,10 выясните, может ли служащий заключить, что есть связь между ученой степенью преподавателя и мнением студентов о способностях преподавателя.

Слайд 59Задачи
11-10. Страховая компания хочет узнать, как влияет возраст водителя на количество

водителей в нетрезвом состоянии. Компания опросила 86 водителей четырех возрастных категорий, чтобы узнать, водят ли они машину в нетрезвом состоянии. При α = 0,05 проверьте утверждение о том, что доля водителей, ответивших утвердительно, одинакова в каждой возрастной группе.

Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика