Связи между двумя переменными (лекция 9) презентация

Содержание

Двумерные связи Таблицы сопряженности Корреляция и регрессия Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 1Лекция 9. Связи между двумя переменными
Дмитриева Арина
admitrieva@eu.spb.ru
16 ноября, 2016


Слайд 2Двумерные связи
Таблицы сопряженности
Корреляция и регрессия

Количественный анализ данных. Тема 3.

Двумерная статистика

Слайд 3Исследовательская модель






Будет ли назначено подсудимому реальный или условный срок в зависимости

от наличия детей

Количественный анализ данных. Тема 3. Двумерная статистика

Независимая переменная

Другие переменные

Зависимая переменная


Слайд 4Таблица сопряженности
Позволяет увидеть связи между двумя переменными
Номинальной и номинальной
Номинальной и

порядковой
Порядковой и порядковой
Таблица сопряженности (contingency table, cross-tab) – статистический метод, который отражает совместное распределение двух или больше переменных с ограниченным числом категорий

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 5Таблица сопряженности
Количественный анализ данных. Тема 3. Двумерная статистика
Вид срока

(реальный / условный) – зависимая переменная, обычно располагается по строкам
Наличие иждивенцев – независимая переменная, обычно располагается по столбцам

Слайд 6Таблица сопряженности, %
В абсолютных цифрах таблица сопряженности неинформативна

Количественный анализ данных. Тема

3. Двумерная статистика

Рассчитан % по столбцам: предполагается, что «наличие иждивенцев» – независимая переменная и показывает, какая доля из людей, имеющих иждивенцев получает реальный срок (57,3%) и какая доля из тех, у кого нет детей получает реальный срок (53,7%)


Слайд 7Таблица сопряженности, %
Количественный анализ данных. Тема 3. Двумерная статистика
Рассчитан %

по строкам: предполагается, что «вид срока» – независимая переменная и показывает, какая доля из людей, получивших условный срок имеет иждивенцев (27,3%) и какая доля из тех, кто получил реальный срок имеет иждивенцев (30,3%)

Слайд 8Таблица сопряженности между двумя порядковыми переменными
Количественный анализ данных. Тема 3. Двумерная

статистика

Слайд 9Графическое изображение

Количественный анализ данных. Тема 3. Двумерная статистика
catplot sentsusp

dependants , percent(dependants) blabel(bar, position(outside) format(%3.1f)) ylabel(none) yscale(r(0,60)) ytitle("") subtitle("назначение вида наказани в зависимости от наличи иждивенцев") asyvars bar(1, bcolor(navy)) bar(2, bcolor(green))

Слайд 10СВЯЗЬ МЕЖДУ ДВУМЯ МЕТРИЧЕСКИМИ ПЕРЕМЕННЫМИ

Количественный анализ данных. Тема 3. Двумерная статистика



Слайд 11Переменные
Sent – размер назначенного наказания (в разных единицах: штраф –

в рублях, исправительные работы или тюремное заключение – в годах и месяцах)
Любая статья УК содержит информацию о нижней (lbound) и верхней (ubound) границе размера наказания
Наказание может быть назначено:
В пределах границ
Ниже или выше границ

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 12Диаграмма рассеивания (интервальные данные)
Количественный анализ данных. Тема 3. Двумерная статистика
.

twoway (scatter sent lbound if inprison==1)

Зависимая переменная

Независимая переменная


Слайд 13Корреляция между двумя переменными

Корреляция – наличие связи между двумя переменными
Эта

связь может быть прямой и обратной
Размер связи меняется от -1 до 1
Прямая связь: большему значению X соответствует большее значение Y
Обратная: большему значению X соответствует меньшее значение Y
Гальтон: корреляция роста родителей и детей
Наиболее известен коэффициент линейной корреляции Пирсона r

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 14Коэффициент корреляции Пирсона
Каково направление и сила связи между размером наказания

и возрастом?
Относятся ли судьи мягче к молодым подсудимым?
Строже, чтобы «не повадно было впредь»?
(гипотеза исправления и наказания)

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 15Формула для коэффициента корреляции
Корреляция – одно число, которое объясняет линейную связь

между двумя переменными
Основная формула



Корреляция – ковариация деленная на произведение соответствующих среднеквадратических отклонений

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 16Характеристики корреляции
Количественный анализ данных. Тема 3. Двумерная статистика
Наклон:
положительная
отрицательная
Сила:


сильная,
слабая,
совершенная
Отсутствие корреляции
Нелинейная корреляция

Слайд 17Требования
Линейная связь между X и Y
X и Y являются метрическими

переменными
X и Y являются случайными величинами (выборка должна быть репрезентативна)
X и Y распределены нормально (но при N>30 требования к распределению снижаются)

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 18Корреляция
Количественный анализ данных. Тема 3. Двумерная статистика
Как связаны размер наказания

и количество непогашенных судимостей?

Слайд 19Регрессионная линия
Если точки на диаграмме рассеяния аппроксимируются прямой линией, то мы

имеем дело с линейной регрессионной моделью

Количественный анализ данных. Тема 3. Двумерная статистика

Подгонка линии

Метод наименьших квадратов


Слайд 20Подгонка линии
Метод наименьших квадратов
Количественный анализ данных. Тема 3. Двумерная

статистика

Слайд 21Регрессионный анализ
 
Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 22Регрессионная модель
 
Анализ данных 2015-2016


Слайд 23

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 24
 
Анализ данных 2015-2016


Слайд 25Количественный анализ данных. Тема 3. Двумерная статистика
Зависимая переменная
Независимая переменная


Коэффициенты модели


Слайд 26Регрессионное уравнение
Регрессионное уравнение зависимости размера наказания от числа предыдущих судимостей


Какой

срок дадут человеку с 3 судимостями?
Человеку с 3 судимостями дадут больше срок, чем человеку с 2 судимостями?
Насколько?
Сколько дадут человеку без судимостей?

Количественный анализ данных. Тема 3. Двумерная статистика

 


Слайд 27Сумма квадратов
 
Анализ данных 2015-2016


Слайд 28R-квадрат
 
Анализ данных 2015-2016


Слайд 29Интерпретация
Корреляция не значит каузация (причинно-следственная связь)
X влияет на Y
Y влияет

на X
Z влияет на X и Y
Экстремальные значения могут сильно повлиять на построение модели


Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 30СВЯЗЬ МЕЖДУ МЕТРИЧЕСКОЙ И КАТЕГОРИАЛЬНОЙ ПЕРЕМЕННОЙ

Количественный анализ данных. Тема 3. Двумерная

статистика

Слайд 31Дисперсионный анализ
Дисперсионный анализ позволяет ответить на вопрос, влияет ли интересующая

нас номинальная переменная (фактор) на количественную переменную (отклик)
Сравниваются средние переменной отклика для каждой группы (фактора)

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 32Сравнение средних
Одинаков ли размер наказания для тех, у кого есть иждивенцы

и для тех, у кого нет?

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 33Сравнение, используя ящичковую диаграмму
graph box sent , over (dependants)
Количественный анализ данных.

Тема 3. Двумерная статистика

Слайд 34Виды связей между переменными
Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 35ПРАКТИЧЕСКОЕ ЗАНЯТИЕ - 3

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 36Пропущенные значения (missing data)
Dealing with missing data: Key assumptions and

methods for applied analysis Marina Soley-Bori msoley@bu.edu

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 37Стандартизация показателей
Z-стандартизация



Позволяет сравнивать значения, измеренные в разных шкалах
Например, при поступлении на

PhD
Петр подал результаты сдачи IELTS = 7,5 (Mean (IELTS) = 6,02, STD = 1,2)
Вероника подала результаты сдачи TOEFL = 97 (mean = 85, STD = 18)
У кого английский лучше?


Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 38Операция стандартизации
 
Количественный анализ данных. Тема 4. Вероятность и тестирование гипотез


Слайд 39Правило «трех сигм»
Количественный анализ данных. Тема 4. Вероятность и тестирование гипотез


Слайд 40Создание таблиц сопряженности
tabout gravity education using table2.doc, append dpcomma cells

(row)
tabout gravity education using table2.doc, append dpcomma cells (row)

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 41Построение гистограмм для двух категорий
catplot sentsusp dependants , percent(dependants) blabel(bar, position(outside)

format(%3.1f)) ylabel(none) yscale(r(0,60)) ytitle("") subtitle("назначение вида наказани в зависимости от наличи иждивенцев") asyvars bar(1, bcolor(navy)) bar(2, bcolor(green))

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 42Построение корреляций
Корреляция между двумя переменными
cor sent episodes

Все парные корреляции между набором

переменных
pwcorr sent episodes age

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 43Регрессионный анализ: этапы
Построить модель (что является зависимой переменной, что независимой)
Построить

диаграмму рассеяния
Построить описательные статистики для всех переменных, включенных в модель

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 44Диаграмма рассеяния
Диаграмма рассеяния
twoway (scatter sent priors_count)
Регрессионная линия
graph twoway

lfit sent priors_count
Диаграмма рассеяния и регрессионная линия на одном графике
graph twoway (lfit sent priors_count) (scatter sent priors_count) ,

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 45

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 46Анализ данных 2015-2016

Коэффициент b (наклон)
Зависимая переменная
Независимая переменная
Коэффициент детерминации R2

Константа

(а)

Слайд 47Анализ данных 2015-2016
(А)
(E)
(В)
(F)
(С)
(D)
– объясненная регрессией сумма квадратов отклонений (RSS)
- сумма квадратов

остатков (ESS)
- общая сумма квадратов отклонений зависимой переменной от ее среднего (TSS)
- средняя сумма квадратов отклонений модели (RSS/k)
- средняя сумма квадратов отклонений остатков (ESS/n-2)
- средняя общая сумма квадратов отклонений (TSS/(n-1)


Слайд 48Вывод во внешний файл
ssc install outreg2
outreg2 using regres1.doc, replace ctitle

(“Модель 1") label addtext(Other controls , NO)

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 49Описательные статистики для набора переменных
Количественный анализ данных. Тема 3. Двумерная

статистика

preserve
keep(sent priors_count)
outreg2 using table3.doc, replace sum(log) keep(sent priors_count)


Слайд 50Отдельные описательные статистики (опция eqkeep)
outreg2 using table3.doc, replace sum(log) keep(sent priors_count)

eqkeep(N mean sd)


Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 51Средние для групп
Количественный анализ данных. Тема 3. Двумерная статистика
bysort

dependants: outreg2 using table4.doc, replace sum(log) keep(sent priors_count) eqkeep( mean sd )

Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика