Модель простой линейной регрессии презентация

Содержание

1. Модель простой линейной регрессии
2. ОСНОВНЫЕ ПОНЯТИЯ
3. Определение модели Простая линейная регрессия — это
4. Спецификация модели Система уравнений
5. Теоретическое уравнение модели Сериальная ошибка —
6. 6 Выборка P3 P2 P1 y P4
7. 6 Теоретическое уравнение P3 P2 P1 Q1
8. Теоретические ограничения У каждой сериальной ошибки математическое
9. Теоретические ограничения Нормальная регрессия Параметрическая или нормальная
10. Метод наименьших квадратов Задача о поиске теоретического
11. Эмпирическое уравнение модели Эмпирическое уравнение модели −
12. Выровненные значения и остатки Выровненное значение −
13. Пример Зависимость расходов на транспорт от дохода
14. Пример
15. Пример Зависимость расходов на транспорт от дохода
16. Интрерпретация уравнения модели Зависимость расходов на транспорт
17. Интрерпретация уравнения модели Коэффициент при объясняющей переменной:
18. ТЕОРЕМА О СУММЕ КВАДРАТОВ
19. Суммы квадратов Остатки: Любой анализ качества модели
20. Теорема о сумме квадратов Если в модели
21. Пример Зависимость расходов на транспорт от дохода
22. Значимость модели Модель является значимой, если в
23. Проверка значимости модели Тест Фишера Основная гипотеза
24. Пример Зависимость расходов на транспорт от дохода
25. Коэффициент детерминации Коэффициент детерминации: Выводы
26. Пример Зависимость расходов на транспорт от дохода
27. СТАНДАРТНЫЕ ОШИБКИ
28. Стандартная ошибка модели Стандартная ошибка модели –
29. Пример Зависимость расходов на транспорт от дохода
30. Стандартные ошибки параметров Стандартная ошибка параметра a
31. Стандартные ошибки параметров Стандартная ошибка параметра b
32. Пример Зависимость расходов на транспорт от дохода
33. Интервальные оценки Интервальная оценка параметра: показывает с
34. Интервальные оценки Интервальная оценка свободного члена: нижняя
35. Интервальные оценки Интервальная оценка углового коэффициента: нижняя
36. Пример Зависимость расходов на транспорт от дохода
37. ЗНАЧИМОСТЬ ПАРАМЕТРОВ МОДЕЛИ
38. Определения Параметр при существенном факторе x
39. Значимость модели и параметров В модели простой
40. Проверка значимости параметра Тест Стьюдента Основная гипотеза
41. Пример Зависимость расходов на транспорт от дохода
42. ПРОГНОЗИРОВАНИЕ
43. Виды прогнозирования Безусловное прогнозирование (предсказание): значение существенного
44. Точечный прогноз Точечный прогноз: значение зависимой переменной,
45. Стандартная ошибка Стандартная ошибка точечного прогноза: несмещенная
46. Интервальный прогноз Интервальная прогноз: показывает с вероятностью
47. Интервальный прогноз Вычисление: нижняя граница интервала
48. Пример Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)
49. НЕЛИНЕЙНАЯ РЕГРЕССИЯ
50. Нелинейные модели Два вида регрессий: нелинейные относительно
51. Пример Кривые Энгеля показывает зависимость между объёмом
52. Основные нелинейные модели Гиперболическая Параболическая Экспоненциальная
53. ВЫБОР ЛУЧШЕЙ МОДЕЛИ
54. Оценка качества модели Инструменты Точечная диаграмма (расположение
55. Оценка качества модели Характеристики подходящей модели На
56. Пример Зависимость расходов на транспорт от дохода
57. Пример Зависимость расходов на транспорт от дохода
58. Выбор модели Два этапа Первый этап: выбор
59. Выбор модели Два этапа Второй этап: выбор
60. Пример Зависимость расходов на транспорт от дохода (США, 1946-2002 годы) Все модели подходящие
61. Пример Зависимость расходов на транспорт от дохода (США, 1946-2002 годы) Лучшая модель – линейная

Главная
Математика
Модель простой линейной регрессии

Слайд 1Модель простой линейной регрессии

Слайд 2ОСНОВНЫЕ ПОНЯТИЯ

Слайд 3Определение модели
Простая линейная регрессия — это модель, описывающая зависимость величины y

от одной переменной x в виде y = a + bx + ε
a, b — коэффициенты
ε — случайная величина
Терминология
x — объясняющая переменная или существенный фактор или регрессор
a, b — параметры регрессии
ε — случайный фактор
y — результирующий показатель или отклик

Слайд 4Спецификация модели
Система уравнений

− описание моделью выборочных данных
(x1; y1),(x2

; y2 ),...,(xn ; yn )
ε1,ε2 ,,εn − сериальные ошибки

Слайд 5Теоретическое уравнение модели
Сериальная ошибка
— это разность между имеющимся значением зависимой

переменной и соответствующим ему значением, предсказанным по уравнению модели
Теоретическое уравнение модели
― такое уравнение, у которого на имеющейся выборке каждая из сериальных ошибок принимает наименьшее значение
Обозначение y = a + bx

Слайд 66
Выборка
P3
P2
P1

y

P4

Слайд 76
Теоретическое уравнение
P3
P2
P1
Q1
Q2
Q3

ε1
y

ε2
ε3
Q4
P4

ε4

Слайд 8Теоретические ограничения
У каждой сериальной ошибки математическое ожидание равно нулю
Дисперсии всех сериальных

ошибок одинаковы (гомоскедастичность возмущений)
Сериальные ошибки не коррелируют между собой (отсутствие автокорреляции возмущений)
Объем выборки больше двух
Выборочные значения существенного фактора не случайны
Элементы выборки не расположены на одной вертикальной прямой

Слайд 9Теоретические ограничения
Нормальная регрессия
Параметрическая или нормальная или гауссовская регрессия −
все сериальные ошибки

имеют нормальное распределение
Общий случай
Сериальные ошибки − одинаково распределенные независимые случайные величины

Слайд 10Метод наименьших квадратов
Задача о поиске теоретического уравнения не разрешима
Найти a и

b такие, что

Оценки aˆ и b по методу наименьших квадратов
Формулы для вычисления

Слайд 11Эмпирическое уравнение модели
Эмпирическое уравнение модели −
такое уравнение, у которого

на имеющейся выборке сумма квадратов сериальных ошибок принимает наименьшее значение
Обозначение

Слайд 12Выровненные значения и остатки
Выровненное значение − значение зависимой переменной, предсказанное с

помощью эмпирического уравнения модели
Обозначение: выровненное значение с номером i:
Остаток − это разность между имеющимся значением зависимой переменной и соответствующим ему значением, предсказанным по эмпирическому уравнению
Обозначение: остаток с номером i:
Вычисление:

Слайд 13Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)
Transp –

совокупные расходы на транспорт в США за год (в миллиардах долларов в ценах 2000 года)
DPI – совокупный личный располагаемый доход в США за год (в миллиардах долларов в ценах 2000 года)

Слайд 14Пример

Слайд 15Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)

Уравнение модели
Transp

–расходы на транспорт
DPI –личный располагаемый доход

Слайд 16Интрерпретация уравнения модели
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)

Коэффициент при DPI:
если доход увеличивается на 1 млрд. долларов, то
расходы на транспорт возрастают на 37,5 млн. долларов
Свободный член:
формально показывает, что нулевом доходе расходы на транспорт будут равны 3,8788 млрд. долларов

Слайд 17Интрерпретация уравнения модели
Коэффициент при объясняющей переменной:
показывает, на сколько единиц примерно изменяется

зависимая переменная при увеличении независимой переменной на единицу
Свободный член равен величине зависимой переменной при нулевом значении существенного фактора

Слайд 18ТЕОРЕМА О СУММЕ КВАДРАТОВ

Слайд 19Суммы квадратов
Остатки:
Любой анализ качества модели − это анализ остатков
Полная сумма квадратов

(total sum of squares):

Регрессионная сумма квадратов (regression sum of squares):
Сумма квадратов ошибок (error sum of squares)

Слайд 20Теорема о сумме квадратов
Если в модели простой регрессии выполняются все теоретические

предположения, то верно равенство:

Слайд 21Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)

Сумма ESS
Сумма

TSS

Сумма RSS

Слайд 22Значимость модели
Модель является значимой, если в теоретическом уравнении модели коэффициент при

существенном факторе не равен нулю

Слайд 23Проверка значимости модели
Тест Фишера
Основная гипотеза – модель незначимая
Альтернативная – модель значимая
Наблюдаемое

значение:

Критическое значение: квантиль уровня 1– α распределения Фишера с 1 и n – 2 степенями свободы
Выводы: если наблюдаемое больше критического, то модель значимая (с возможной 100α%-й ошибкой)
если наблюдаемое меньше критического, то гипотеза о незначимости модели не отвергается

Проверка при заданном уровне значимости α

Слайд 24Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)

Наблюдаемое значение
Критическое

значение

Модель значимая
(с возможной 5%-й ошибкой)

p-значение меньше 0,05

Проверка при уровне значимости
α = 0,05

Слайд 25Коэффициент детерминации
Коэффициент детерминации:

Выводы о качестве модели
Коэффициент меньше примерно 0,2:
модель плохо

описывает имеющиеся данные
Коэффициент больше примерно 0,7: модель линейной регрессии дает хорошее описание
Коэффициент от 0,2 до 0,7: нельзя сделать вывод о качестве модели

Слайд 26Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)

Модель качественная

Слайд 27СТАНДАРТНЫЕ ОШИБКИ

Слайд 28Стандартная ошибка модели
Стандартная ошибка модели
– несмещенная оценка среднего квадратического отклонения сериальных

ошибок
Формула вычисления:

n – объем выборки
ESS – сумма квадратов сериальных ошибок

Слайд 29Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)

Стандартная ошибка

модели

Слайд 30Стандартные ошибки параметров
Стандартная ошибка параметра a
– несмещенная оценка среднего квадратического отклонения

случайной величины â
Формула вычисления:

s – стандартная ошибка модели
n – объем выборки

Слайд 31Стандартные ошибки параметров
Стандартная ошибка параметра b
– несмещенная оценка среднего квадратического отклонения

случайной величины
Формула вычисления:

s – стандартная ошибка модели

Слайд 32Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)

Стандартная ошибка

свободного члена

Стандартная ошибка параметра при DPI

Слайд 33Интервальные оценки
Интервальная оценка параметра:
показывает с вероятностью 1– α , в каком

интервале содержится истинное значение параметра
Вероятность 1– α — надежность
Интервал обычно вычисляется с помощью точечной оценки параметра

Слайд 34Интервальные оценки
Интервальная оценка свободного члена:
нижняя граница интервала
верхняя граница интервала

– точечная оценка свободного члена
– стандартная ошибка свободного члена
– двусторонняя квантиль уровня 1– α распределения Стьюдента с n – 2 степенями свободы

Слайд 35Интервальные оценки
Интервальная оценка углового коэффициента:
нижняя граница интервала
верхняя граница интервала

– точечная оценка углового коэффициента
– стандартная ошибка углового коэффициента
– двусторонняя квантиль уровня 1– α распределения Стьюдента с n – 2 степенями свободы

Слайд 36Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)

Интервальная оценка

свободного члена

Интервальная оценка параметра DPI

Слайд 37ЗНАЧИМОСТЬ ПАРАМЕТРОВ МОДЕЛИ

Слайд 38Определения
Параметр при существенном факторе x называется значимым, если его

истинное значение не равно нулю
Значимость параметра при x означает: модель учитывает влияние данного фактора на зависимую переменную
Параметр при существенном факторе x называется статистически незначимым, если его значимость не установлена
Статистическая незначимость параметра при x означает: возможно, модель не учитывает влияние данного фактора на зависимую переменную

Слайд 39Значимость модели и параметров
В модели простой линейной регрессии значимость параметра при

существенном факторе равносильна значимости модели!

Слайд 40Проверка значимости параметра
Тест Стьюдента
Основная гипотеза – параметр b незначимый
Альтернативная – параметр

b значимый
Наблюдаемое значение:

Критическое значение: квантиль уровня 1– α распределения Стьюдента с n – 2 степенями свободы
Выводы: если наблюдаемое больше критического, то параметр значимый (с возможной 100α%-й ошибкой)
если наблюдаемое меньше критического, то гипотеза о незначимости параметра не отвергается (статистическая незначимость параметра)

Проверка при заданном уровне значимости α

Слайд 41Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)

Параметр при

DPI значимый
(с возможной 5%-й ошибкой)

p-значение меньше 0,05

Наблюдаемое значение

Критическое значение

Проверка при уровне значимости
α = 0,05

Слайд 42ПРОГНОЗИРОВАНИЕ

Слайд 43Виды прогнозирования
Безусловное прогнозирование (предсказание):
значение существенного фактора, соответствующее прогнозируемому значению, известно
Условное прогнозирование:
значение

существенного фактора, соответствующее прогнозируемому значению, не известно

Слайд 44Точечный прогноз
Точечный прогноз:
значение зависимой переменной, вычисленное с помощью эмпирического уравнения модели

Вычисление:
x0 – значение соответствующего существенного фактора

Слайд 45Стандартная ошибка
Стандартная ошибка точечного прогноза:
несмещенная оценка стандартного отклонения случайной величины
Вычисление:

s – стандартная ошибка точечного прогноза
x0 – значение соответствующего существенного фактора

Слайд 46Интервальный прогноз
Интервальная прогноз:
показывает с вероятностью 1– α , в каком интервале

содержится истинное значение зависимой переменной
Вероятность 1– α — надежность

Слайд 47Интервальный прогноз
Вычисление:
нижняя граница интервала
верхняя граница интервала
–

точечный прогноз
– стандартная ошибка прогноза
– двусторонняя квантиль уровня 1– α распределения Стьюдента с n – 2 степенями свободы

Слайд 48Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)

Слайд 49НЕЛИНЕЙНАЯ РЕГРЕССИЯ

Слайд 50Нелинейные модели
Два вида регрессий:
нелинейные относительно объясняющих переменных, но линейные по оцениваемым

параметрам

нелинейные по оцениваемым параметрам

Все после замены становятся линейными

Некоторые сводятся к линейным после логарифмирования

Слайд 51Пример
Кривые Энгеля
показывает зависимость между объёмом потребления товаров или услуг и доходом потребителя при неизменных ценах

и предпочтениях

E1 — кривая для нормальных товаров

E2 — кривая для предметов роскоши

E3 — кривая для низкокачественных товаров

Эрнст Энгель (1821-1896)
немецкий экономист и статистик

Слайд 52Основные нелинейные модели
Гиперболическая
Параболическая
Экспоненциальная
Степенная

После замены становятся линейными

Полулогарифмическая регрессия
Логарифмическая регрессия

Слайд 53ВЫБОР ЛУЧШЕЙ МОДЕЛИ

Слайд 54Оценка качества модели
Инструменты
Точечная диаграмма (расположение точек вдоль линии тренда)
Статистика Фишера (значимость

модели по тесту Фишера)
Коэффициент детерминации (оценка качества модели по его величине)
Средняя относительная погрешность (оценка качества модели по её величине)

Слайд 55Оценка качества модели
Характеристики подходящей модели
На диаграмме точки расположены, в основном, вдоль

линии тренда
Модель значимая
Коэффициент детерминации не меньше заданного уровня (обычно 0,65-0,7)
Средняя относительная погрешность не меньше заданного уровня (обычно 10% - 25%)

Могут использоваться модели с меньшим коэффициентом

Могут использоваться модели с большей погрешностью

Слайд 56Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)
Точки расположены

вдоль линейного тренда

Слайд 57Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)
Статистика Фишера
Коэффициент

детерминации
Средняя относительная погрешность

Модель значимая

Модель хорошо описывает выборочные данные

Модель подходящая

Слайд 58Выбор модели
Два этапа
Первый этап: выбор подходящих моделей
Обычно используются: линейная, гиперболическая, параболическая,

экспоненциальная, степенная модели
Для моделей с зависимой переменной, отличной от исходной, предсказанные значения, остатки, коэффициенты детерминации и среднюю относительную погрешность необходимо вычислять отдельно!

Слайд 59Выбор модели
Два этапа
Второй этап: выбор лучшей модели
Для сравнения подходящих моделей используются

такие же инструменты, как на первом этапе

Слайд 60Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)
Все модели

подходящие

Слайд 61Пример
Зависимость расходов на транспорт от дохода (США, 1946-2002 годы)
Лучшая модель

– линейная

Скачать презентацию

Модель простой линейной регрессии презентация

Содержание

Слайд 1Модель простой линейной регрессии

Слайд 2ОСНОВНЫЕ ПОНЯТИЯ

Слайд 3Определение моделиПростая линейная регрессия — это модель, описывающая зависимость величины y

Слайд 4Спецификация моделиСистема уравнений − описание моделью выборочных данных (x1; y1),(x2

Слайд 5Теоретическое уравнение моделиСериальная ошибка — это разность между имеющимся значением зависимой

Слайд 66ВыборкаP3P2P1yP4

Слайд 76Теоретическое уравнениеP3P2P1Q1Q2Q3ε1yε2ε3Q4P4ε4

Слайд 8Теоретические ограниченияУ каждой сериальной ошибки математическое ожидание равно нулюДисперсии всех сериальных

Слайд 9Теоретические ограниченияНормальная регрессияПараметрическая или нормальная или гауссовская регрессия −все сериальные ошибки

Слайд 10Метод наименьших квадратовЗадача о поиске теоретического уравнения не разрешимаНайти a и

Слайд 11Эмпирическое уравнение моделиЭмпирическое уравнение модели − такое уравнение, у которого

Слайд 12Выровненные значения и остаткиВыровненное значение − значение зависимой переменной, предсказанное с

Слайд 13ПримерЗависимость расходов на транспорт от дохода (США, 1946-2002 годы) Transp –

Слайд 14Пример

Слайд 15ПримерЗависимость расходов на транспорт от дохода (США, 1946-2002 годы) Уравнение моделиTransp

Слайд 16Интрерпретация уравнения моделиЗависимость расходов на транспорт от дохода (США, 1946-2002 годы)

Слайд 17Интрерпретация уравнения моделиКоэффициент при объясняющей переменной:показывает, на сколько единиц примерно изменяется

Слайд 18ТЕОРЕМА О СУММЕ КВАДРАТОВ

Слайд 19Суммы квадратовОстатки:Любой анализ качества модели − это анализ остатковПолная сумма квадратов

Слайд 20Теорема о сумме квадратовЕсли в модели простой регрессии выполняются все теоретические

Слайд 21ПримерЗависимость расходов на транспорт от дохода (США, 1946-2002 годы) Сумма ESSСумма

Слайд 22Значимость моделиМодель является значимой, если в теоретическом уравнении модели коэффициент при

Слайд 23Проверка значимости моделиТест ФишераОсновная гипотеза – модель незначимаяАльтернативная – модель значимаяНаблюдаемое

Слайд 24ПримерЗависимость расходов на транспорт от дохода (США, 1946-2002 годы) Наблюдаемое значениеКритическое

Слайд 25Коэффициент детерминацииКоэффициент детерминации:Выводы о качестве моделиКоэффициент меньше примерно 0,2: модель плохо

Слайд 26ПримерЗависимость расходов на транспорт от дохода (США, 1946-2002 годы) Модель качественная

Слайд 27СТАНДАРТНЫЕ ОШИБКИ

Слайд 28Стандартная ошибка моделиСтандартная ошибка модели– несмещенная оценка среднего квадратического отклонения сериальных

Слайд 29ПримерЗависимость расходов на транспорт от дохода (США, 1946-2002 годы) Стандартная ошибка

Слайд 30Стандартные ошибки параметровСтандартная ошибка параметра a– несмещенная оценка среднего квадратического отклонения

Слайд 31Стандартные ошибки параметровСтандартная ошибка параметра b– несмещенная оценка среднего квадратического отклонения

Слайд 32ПримерЗависимость расходов на транспорт от дохода (США, 1946-2002 годы) Стандартная ошибка

Слайд 33Интервальные оценкиИнтервальная оценка параметра:показывает с вероятностью 1– α , в каком

Слайд 34Интервальные оценкиИнтервальная оценка свободного члена:нижняя граница интервала верхняя граница интервала

Слайд 35Интервальные оценкиИнтервальная оценка углового коэффициента:нижняя граница интервала верхняя граница интервала

Слайд 36ПримерЗависимость расходов на транспорт от дохода (США, 1946-2002 годы) Интервальная оценка