Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть презентация

Содержание

1. Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть
2. Вы не можете этим управлять, если
3. Дисклеймер Как потерять всех друзей-психологов и заставить
4. Педагогические и психологические тесты Способность = черта
5. Почему именно тесты? Отделение одной характеристики респондентов
6. Измерение В естественных науках: Понимание величины четко
7. Конструкты Вы когда-нибудь видели критическое мышление
8. Операциональное определение Операциональное определение – определение конструкта
9. Операционализация Измерения в психологии и образовании
10. Валидность Действительно ли Ваш тест измеряет конструкт
11. Разработка теста Генерализация Экстраполяция Интерпретация Brennan R.
12. Измерения в психологии и образовании МЕЛКАЯ МОТОРИКА Разработка теста
13. Разработка теста Brennan R. (Ed.). (2006). Educational
14. Разработка теста Brennan R. (Ed.). (2006). Educational
15. Разработка теста Brennan R. (Ed.). (2006). Educational
16. Разработка теста Brennan R. (Ed.). (2006). Educational
17. Разработка теста Brennan R. (Ed.). (2006). Educational
18. Разработка теста Brennan R. (Ed.). (2006). Educational
19. Разработка теста Brennan R. (Ed.). (2006). Educational
20. Разработка теста Brennan R. (Ed.). (2006). Educational
21. Разработка теста Brennan R. (Ed.). (2006). Educational
22. Разработка теста Brennan R. (Ed.). (2006). Educational
23. Разработка теста Brennan R. (Ed.). (2006). Educational
24. Разработка теста Brennan R. (Ed.). (2006). Educational
25. Разработка теста Brennan R. (Ed.). (2006). Educational
26. Разработка теста Brennan R. (Ed.). (2006). Educational
27. Разработка теста Генерализация Brennan R. (Ed.). (2006).
28. Разработка теста Генерализация Brennan R. (Ed.). (2006).
29. Разработка теста Генерализация Экстраполяция Brennan R. (Ed.).
30. Разработка теста Генерализация Экстраполяция Brennan R. (Ed.).
31. Разработка теста Генерализация Экстраполяция Интерпретация Brennan R.
32. Разработка теста Генерализация Экстраполяция Интерпретация Brennan R.
33. Разработка теста Генерализация Экстраполяция Интерпретация Brennan R.
34. Зачем это все? После получения тестового балла
35. Кроме того: одномерность теста Когда читаете про
36. Эталоны Что такое тестовый балл? Что является единицей измерения? Измерения в психологии и образовании
37. Концепт тестового балла А одинакова ли разница
38. Ошибка измерения Кто о ней вообще думает?
39. Ошибка измерения Поскольку определить ошибку напрямую невозможно,
40. Систематическая ошибка измерения Систематическая ошибка измерения систематически
41. Случайная ошибка измерения Средняя ошибка при
42. Ошибка измерения и надежность теста Надежность
43. Инвариантность измерения относительно инструмента Разные варианты (формы)
44. Поговорим про практические аспекты? Трудность задания Различительная
45. Трудность задания В дихотомическом случае (0/1 балл)
46. Различительная способность задания Вы хотите, что
47. Коэффициенты корреляции Мы можем посмотреть, как связан
48. Коэффициенты корреляции (КК) Измерения в психологии и образовании
49. Коэффициенты корреляции Измерения в психологии и образовании
50. Критические значения параметров АЛЯРМ: КОНВЕНЦИОНАЛЬНЫЕ СТАНДАРТЫ!!!1 Трудность:
51. Изящество классической модели Экстремально полезен коэффициент «Альфа
52. Итого: абсолютный релятивизм Измеряемые величины плавают от
53. Что же делать? Один тест не может
54. Нужны ли тесты вообще? Да. Особенно хорошие.
55. Спасибо за внимание! Измерения в психологии и образовании hse.ru/ma/psyedu
56. Измерения в психологии и образовании
58. Психологическое тестирование: математический взгляд
59. Тестирование: математический взгляд
60. Вероятность правильного ответа Трудность задания
61. Шкалирование Гуттмана Вероятность правильного ответа Трудность задания
62. Все сложнее: “дисперсия ошибки”
63. Классическая Теория Тестирования Вероятность правильного ответа Трудность
64. Современная теория тестирования Вероятность правильного ответа Трудность
65. Логистическая регрессия Супер-способность Балл по вопросу 0
66. Логистическая регрессия Супер-способность Балл по вопросу 0
67. θ – уровень подготовленности респондента δ –
68. Мы допускаем, что есть некоторый параметр здания
69. Получение 1 балла по заданию перестает рассматриваться
70. Таким образом, мы можем смоделировать латентную непрерывную
71. Карта переменных (Wright Map, Kidmap, Variable Map) Измерения в психологии и образовании
72. Статистические основания продвинутых психометрических методов: пример
73. Поговорим про модели Строго говоря, IRT –
74. Дихотомические модели: 1PL У фасета заданий оценивается
75. “In reality no one does 3PL model.
76. Дихотомические модели: 5PL У фасета заданий оценивается
77. Специфические модели Политомические модели (в том числе,

Главная
Философия
Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть

Слайд 1Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть?
Денис Федерякин, Ирина

Угланова
НИУ ВШЭ, Институт образования, Измерения в психологии и образовании

При подготовке использовались материалы
Тюменевой Ю.А., Васина Г.М., Кардановой Е.Ю.

Слайд 2Вы не можете этим управлять,
если не сможете это измерить
Измерения в

психологии и образовании

Слайд 3Дисклеймер
Как потерять всех друзей-психологов и заставить их себя ненавидеть?
Стань методологом

Нечего сказать

про исследование?
Пристань к методологии

Как выбрать лучший тест?
Никак. Все тесты разные, и это нормально.

Измерения в психологии и образовании

Слайд 4Педагогические и психологические тесты
Способность = черта
Уровень способности = уровень черты
Трудность задания

= трудность согласиться
с утверждением

Правильный ответ на задание говорит о самом высоком уровне способности, которое может измерить это задание; вариант ответа «Абсолютно согласен» говорит о самом высоком уровне черты, которое может измерить задание.

Измерения в психологии и образовании

Слайд 5Почему именно тесты?
Отделение одной характеристики респондентов от смежных
Объективность и справедливость
Экономически выгодно
Тиражируемость
Предсказуемость

результатов применения:
Таблицы Taylor-Russell и таблицы Lawshe: сколько процентов поступающих на работу будут справляться с ней при определенной корреляции баллов по инструменту и job performance
Таблицы Naylor-Shine: показывает как много денег для организации заработают сотрудники в зависимости от корреляции баллов по инструменту и результативности сотрудника при сравнении с набранными случайно

Измерения в психологии и образовании

Слайд 6Измерение
В естественных науках:
Понимание величины четко определено
Сравнение с эталоном (пре-реквизит: эталоны четко

заданы и конвертируемы друг в друга)
Присутствует ошибка измерения (ВСЕГДА), но иногда ею можно пренебречь
Не зависит относительно измерительного инструмента

В социальных науках:
Все плохо
Но: по одному шагу за раз.

Измерения в психологии и образовании

Слайд 7Конструкты
Вы когда-нибудь видели критическое мышление
или тревожность ходящими по комнате?
Если да,

Вам следует обратиться за помощью.
Ненаблюдаемые (латентные) конструкты не существуют в реальности
То, что мы измеряем – это наше представление об определенных чертах или способностях (операционализация конструкта, модель конструкта)

Измерения в психологии и образовании

Слайд 8Операциональное определение
Операциональное определение – определение конструкта в терминах операций, выполняемых при

его измерении

Измерения в психологии и образовании

Напрямую конструкты измерить невозможно, поэтому мы:
Собираем свидетельства о проявлении некоторого поведения
Допускаем, что это поведение объясняется нашим пониманием конструкта
Допускаем, что чем чаще проявляется определенное поведение,
тем сильнее выражен конструкт
Допускаем, что все многообразие поведения, соответствующее конструкту, объясняется только этим конструктом и ничем другим

Один конструкт = одна размерность

Слайд 9
Операционализация
Измерения в психологии и образовании
Операциональное определение
Операциональное определение – определение конструкта в

терминах операций, выполняемых при его измерении

Слайд 10Валидность
Действительно ли Ваш тест измеряет конструкт в Вашем понимании?
Давным-давно в далекой-далекой

галактике существовала только
критериальная валидность, и все были очень тревожные.
Конструктная валидность – это выход.
Валидность – это сумма доказательств,
поддерживающих вашу интерпретацию тестового балла
Процесс валидизации никогда не может быть полностью завершен,
поэтому Вы можете собирать свидетельства о валидности хоть всю жизнь.

Измерения в психологии и образовании

Измеряет ли тест то, что Вы хотите им измерить?

Слайд 11Разработка теста
Генерализация
Экстраполяция
Интерпретация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

ЗАКЛЮЧЕНИЕ

Слайд 12Измерения в психологии и образовании
МЕЛКАЯ МОТОРИКА
Разработка теста

Слайд 13Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Операционализация:
под

мелкой моторикой мы понимаем то, насколько скоординировано человек двигает пальцами?
Или как ловко он оперирует мелкими предметами?

Слайд 14Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Определение области

проявления поведения: мелкая моторика может проявляться в бесконечном множестве ситуаций.

От того, насколько ловко человек ковыряется в носу, до часового и ювелирного мастерства.

Слайд 15Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ПОСТОРОННИЕ ЧЕРТЫ
Мелкая

моторика связана с общей координацией движений и физическим развитием?
С социальной ситуацией действия: человек может мастерски ковыряться в носу, но не показывать этого на людях?

Слайд 16Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
Человеку

может нравиться быть часовщиком, но может не нравиться ковыряться в носу.
Или наоборот.
¯\_(ツ)_/¯

Слайд 17Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД

СБОРА ДАННЫХ

Опросник, основанный на самоотчете;
эксперимент (как много гаек он закрутит пальцами, пока не скажет, что с него хватит);
наблюдение.

Или ещё миллион способов.

Слайд 18Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ПОСТОРОННИЕ

ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Это все, конечно, прекрасно, но мы будем исследовать мелкую моторику по тому, как он играет в LEGO.

Слайд 19Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ПОСТОРОННИЕ

ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Знакомство и отношение испытуемого к LEGO

Слайд 20Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

Знакомство

и отношение испытуемого к LEGO

Испытуемому нравятся наборы The Avengers, а мы будем использовать наборы Star Wars

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Слайд 21Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

Знакомство

и отношение испытуемого к LEGO

Испытуемому нравятся наборы The Avengers, а мы будем использовать наборы Star Wars

Дизайн сбора данных

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Слайд 22Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

ИНДИКАТОРОВ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Использование данных о процессе деятельности или использование результата деятельности?

Слайд 23Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

ИНДИКАТОРОВ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Мы будем смотреть на то, собран ли конструктор и на
время сбора конструктора.

Слайд 24Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

ИНДИКАТОРОВ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Что бы Вы не решили оценивать, сами оценки должны быть продуманы.
Нужно задать правила начисления баллов.

Слайд 25Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

ИНДИКАТОРОВ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

2 балла – конструктор аккуратно и полностью собран;
1 балл – конструктор собран неаккуратно или неполностью;
0 баллов – конструктор не собран.

Время – в секундах

Слайд 26Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Психометрические характеристики инструмента?
Кроме Альфы Кронбаха что-то еще существует?

Слайд 27Разработка теста
Генерализация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Как испытуемый играет с LEGO Star Wars Collection?

Слайд 28Разработка теста
Генерализация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

Допущение: респондент играет со всем LEGO точно так же, как и с Star Wars Collection

Слайд 29Разработка теста
Генерализация
Экстраполяция
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

Как респондент работает со всем LEGO?

Слайд 30Разработка теста
Генерализация
Экстраполяция
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

Допущение: респондент работает со всем LEGO точно так же, как и работает со всеми мелкими предметами

Слайд 31Разработка теста
Генерализация
Экстраполяция
Интерпретация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

То, как респондент обращается с мелкими предметами, действительно отображает уровень развития его мелкой моторики?

Слайд 32Разработка теста
Генерализация
Экстраполяция
Интерпретация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

ЗАКЛЮЧЕНИЕ

«У респондента мелкая моторика развита лучше, чем у N% населения»

Слайд 33Разработка теста
Генерализация
Экстраполяция
Интерпретация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

ЗАКЛЮЧЕНИЕ

«Респондент относится к уровню «Высокий» по уровню развития мелкой моторики с вероятностью К»

Слайд 34Зачем это все?
После получения тестового балла мы меняли только наше понимание

того, что тестовый балл значит. Но больше ничего не менялось.
Не совсем так.
Мы работаем с выборкой. Если выборка репрезентативна, то на этих шагах делаются математические допущения о распределении черты в генеральной совокупности (во всей популяции людей, на которую мы можем распространять результаты).
А если нерепрезентативная?
Ой, всё.

Измерения в психологии и образовании

Слайд 35Кроме того: одномерность теста
Когда читаете про Альфу Кронбаха, всегда натыкаетесь на

то, что «она не должна использоваться как мера одномерности теста»
Чё?

Одномерность предполагает, что все многообразие поведения, стоящего за конструктом можно отразить одномерной шкалой.

Действия, которые должны относиться к нашему конструкту, происходят из-за нашего конструкта. И только из-за него.

Респондент не может быть лучше в одном аспекте конструкта, чем в другом.

Измерения в психологии и образовании

Слайд 36Эталоны
Что такое тестовый балл?
Что является единицей измерения?
Измерения в психологии и образовании

Слайд 37Концепт тестового балла
А одинакова ли разница между респондентами с 29 и

30 баллами и респондентами с 30 и 31?
Тестовый балл дискретен, конструкт тоже?

Измерения в психологии и образовании

Слайд 38Ошибка измерения
Кто о ней вообще думает?

Самая известная модель классической теории тестирования:
X

= T + E, где
X – это полученный (наблюдаемый, тестовый) балл
T – это истинный балл
E – это ошибка определения истинного балла

Ошибка есть всегда. Какие-то ответы определяются истинной способностью испытуемого, а какие-то – ошибкой.
Как определить, какие ответы будут истинными?

Измерения в психологии и образовании

Слайд 39Ошибка измерения
Поскольку определить ошибку напрямую невозможно, для нее придуманы философские допущения.
Есть

случайная ошибка измерения.
Есть систематическая ошибка измерения.

Измерения в психологии и образовании

Слайд 40Систематическая ошибка измерения
Систематическая ошибка измерения систематически и предсказуемо изменяет его на

одну и ту же величину

Как её определить?
Никак, она входит в истинный балл, поехали дальше.

Измерения в психологии и образовании

Слайд 41Случайная ошибка измерения

Средняя ошибка при бесконечном повторении тестирования равна нулю.
Ошибки двух

людей не связаны, ошибки двух вопросов не связаны.
Ошибка не связана с истинным баллом.

Измерения в психологии и образовании

Случайная ошибка измерения (Standard Error of Measurement) – это общий эффект всех неконтролируемых и неспецифических влияний на тестовый балл.

Слайд 42Ошибка измерения и надежность теста
Надежность теста – это мера того, насколько

данные свободны от ошибки
Измеряет ли тест вообще что-либо или все результаты – набор ошибок?

Но как определить величину ошибки, если не существует даже единицы измерения?
Напрямую – никак

Множество мер надежности, самая известная
[и самая плохая] – α Кронбаха

Измерения в психологии и образовании

Слайд 43Инвариантность измерения относительно инструмента
Разные варианты (формы) теста.
Все задания разные: какие-то

легче, какие-то труднее.
Как доказать, что варианты теста эквивалентны?
Как определить, какие баллы по одному варианту эквивалентны каким баллам по другому?
Проще умереть.

Измерения в психологии и образовании

Слайд 44Поговорим про практические аспекты?
Трудность задания
Различительная способность задания
Надежность
Измерения в психологии и образовании

Слайд 45Трудность задания
В дихотомическом случае
(0/1 балл) коэффициент трудности равен доле правильно решивших

задание от всей выборки (среднему баллу за задание)

В политомическом случае
(шкала Ликерта от 1 до 4) коэффициент трудности равен среднему баллу по заданию, деленному на количество категорий задания

80%

20%

30%

70%

Задание 1

Задание 2

P-value = 0.8

P-value = 0.3

15%

30%

45%

10%

Relative p-value = 1.5
Absolute p-value = 0.38

P-value – коэффициент трудности

Слайд 46Различительная способность задания
Вы хотите, что бы ваши задания выполняли сильные респонденты,

и не выполняли слабые, т.е., чтобы ваши задания дифференцировали респондентов по уровню способности
NB!: Это не вопрос

Существует несколько способов измерить различительную способность задания
Посмотреть различия «самых сильных» и «самых слабых» респондентов
Коэффициенты корреляции: корреляция балла по заданию с баллом по тесту (+ скорректированные коэффициенты корреляции)

Измерения в психологии и образовании

Слайд 47Коэффициенты корреляции
Мы можем посмотреть, как связан балл за одно задание
с

итоговым баллом по тесту
Связано должно быть сильно
И положительно, если вопрос прямой

Зачем на это смотреть?
Итоговый балл за задание – выраженность конструкта
Связь балла за задание с итоговым баллом – связь отдельного аспекта конструкта с конструктом в целом

Измерения в психологии и образовании

Слайд 48Коэффициенты корреляции (КК)

Измерения в психологии и образовании

Слайд 49Коэффициенты корреляции
Измерения в психологии и образовании

Слайд 50Критические значения параметров
АЛЯРМ: КОНВЕНЦИОНАЛЬНЫЕ СТАНДАРТЫ!!!1
Трудность:
Редко когда мы заинтересованы в экстремально легких

задания (>0.95) и экстремально трудных заданиях (<0.05)
Различительная способность:
Мы не заинтересованы в заданиях с низкой (<0.20) и, тем более отрицательной различительной способностью
Взаимосвязь различных мер различительной способности изучена плохо, т.к. показатель зависит от многих факторов.
Но конвенциональный стандарт 0.20 един для всех мер

Измерения в психологии и образовании

Слайд 51Изящество классической модели
Экстремально полезен коэффициент «Альфа Кронбаха, если удалить это задание

из теста» - если тест становится без этого заданий более надежным, это плохой знак. Очень плохой.

Измерения в психологии и образовании

Слайд 52Итого: абсолютный релятивизм
Измеряемые величины плавают от одного определения к другому, от

одной операционализации к другой
Единых эталонов измерения нет, даже внутри одного теста
Ошибка измерения неотделима от истинного балла непосредственно, поэтому придумано множество косвенных способов, как её определить опосредованно (и ни один из них не правилен абсолютно)
Измерение зависит от варианта измерительного инструмента

Психология – наука победившего постмодернизма
(как и педагогика).

Измерения в психологии и образовании

Слайд 53Что же делать?
Один тест не может сравниваться с другим тестом, только

если это не цели валидизации
«Ну, мааааааам, эта опелацианализация лууууучше!»
vs.
«Модель конструкта, заложенная в этот тест, лучше отвечает целям нашей работы».

Работать в современной теории тестирования

Измерения в психологии и образовании

Слайд 54Нужны ли тесты вообще?
Да. Особенно хорошие.
Экономически выгоднее (тиражируемость)
Объективнее оценивают отдельные ключевые

характеристики
Справедливость и равенство (лишены индивидуальных искажений экспертов)

Измерения в психологии и образовании

Слайд 55Спасибо за внимание!
Измерения в психологии и образовании
hse.ru/ma/psyedu

Слайд 56Измерения в психологии и образовании

Слайд 57

Слайд 58Психологическое тестирование: математический взгляд

Выраженность конструкта
Задание 1:

Задание 2:

Задание 3:

Задание 4:
Измерения в психологии

и образовании

Слайд 59Тестирование: математический взгляд

Выраженность конструкта
Задания:
1
1
1
1
0
Респондент 1:
1
0
0
0
0
Респондент 2:
Где-то здесь

Измерения в психологии и образовании

Слайд 60Вероятность правильного ответа
Трудность задания

Задание 1
Задание 2
Про вероятность правильного ответа на вопрос
Измерения

в психологии и образовании

Слайд 61Шкалирование Гуттмана
Вероятность правильного ответа
Трудность задания

Задание 1
Задание 2
Измерения в психологии и образовании

Слайд 62Все сложнее: “дисперсия ошибки”

Выраженность конструкта
Задания:
1
1
1
1
0
Респондент 1:
1
0
0
0
0
Респондент 2:
1
1
0
1
0
Респондент 3:
Где-то здесь

?
Измерения в психологии

и образовании

Слайд 63Классическая Теория Тестирования
Вероятность правильного ответа
Трудность задания

Задание 1
Задание 2
Измерения в психологии и

образовании

Слайд 64Современная теория тестирования
Вероятность правильного ответа
Трудность задания

Задание 1
Задание 2

Логистическая регрессия: характеристическая кривая

респондента (Person Characteristic Curve, PCC)

Измерения в психологии и образовании

Слайд 65Логистическая регрессия
Супер-способность
Балл по вопросу
0
1

0
Измерения в психологии и образовании

Слайд 66Логистическая регрессия
Супер-способность
Балл по вопросу
0
1

0

Слайд 67θ – уровень подготовленности респондента
δ – уровень трудности задания
P – вероятность

правильно ответить на задание

,δ

Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам

Слайд 68Мы допускаем, что есть некоторый параметр здания (трудность), который лежит на

одной на одной шкале с параметром испытуемого (способностью)
Чем больше разница между этими параметрами (их разность по модулю,
|θ-δ|), тем сильнее вероятность ответа отличается от 0,5

,δ

Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам

Слайд 69Получение 1 балла по заданию перестает рассматриваться как часть итогового тестового

балла
Оно рассматривается как дихотомическое событие, вероятность наступления которого зависит от разницы между трудностью и способностью

,δ

Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам

Слайд 70Таким образом, мы можем смоделировать латентную непрерывную характеристику способностей испытуемых (и

заданий)
NB!: вероятность никогда не будет равна 0 или 1 (в силу формулы)

,δ

Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам

Слайд 71Карта переменных (Wright Map, Kidmap, Variable Map)
Измерения в психологии и образовании

Слайд 72
Статистические основания продвинутых психометрических методов: пример теста из трех заданий

Вариация ответов,

определяющаяся целевым конструктом

Вариация ситуативной ошибки

Неодномерность теста (т.н. «локальная зависимость заданий», «Local Item Dependency», LID)

Измерения в психологии и образовании

Слайд 73Поговорим про модели
Строго говоря, IRT – не теория, а набор моделей
Эти

модели используются, потому что они удобны, никакой теоретической рамки за этим набором моделей нет
IRT Моделирует вероятность исхода случайного дихотомического события на основе ряда других дихотомических событий
Представляет собой конфирматорный факторный анализ (CFA) с использованием логистических, а не линейных уравнений. Смена типа уравнений увеличивает количество информации, которую мы можем получить и о тесте, и о респондентах.
Если Вы поняли этот пункт, то зачем Вы вообще нас слушали до этого момента?
Существует большое количество различных моделей, но традиционно их разделяют на два семейства:
Семейство моделей Раша (Rasch Modeling)
Собственно IRT-модели

Измерения в психологии и образовании

Слайд 74Дихотомические модели: 1PL
У фасета заданий оценивается только трудность, у фасета респондентов

– только способность
Дискриминативность считается фактором, не влияющим на вероятность ответа
Все ICC параллельны
Объяснительная модель

Измерения в психологии и образовании

Слайд 75“In reality no one does 3PL model. Even 2PL model using

is seldom. However, I’m going to show you 5PL model.”

Dr. David Stillwell, Cambridge Psychometrics Centre
7 Sep 2017

Измерения в психологии и образовании

Слайд 76Дихотомические модели: 5PL
У фасета заданий оценивается трудность, дискриминативность, угадывание, невнимательность и

«снижение» (unfolding), у фасета респондентов – только способность
ICC могут пересекаться, имеют нижнюю асимптоту, верхнюю асимптоту и немонотонны
СУПЕР описательная модель

Слайд 77Специфические модели
Политомические модели (в том числе, для психологических данных)
Многомерные модели (когда

несколько шкал коррелируют друг с другом)
Многофасетные модели (когда в модель включаются дополнительные фасеты, влияющие на вероятность получить определенный балл за задание, например, проверяющие)
Тестлет-модели (когда несколько шкал иерархически вкладываются в одну)
Многоуровневые модели (когда выборка кластеризована на основе содержательного признака)
Модели для номинальных данных (Nominal Response Models)
Модели для ипсативных данных (Thurtstonian IRT Model)
Модели, учитывающие время ответа на вопрос
И другие…

Измерения в психологии и образовании

Скачать презентацию

Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть презентация

Содержание

Слайд 1Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть?Денис Федерякин, Ирина

Слайд 2Вы не можете этим управлять, если не сможете это измеритьИзмерения в

Слайд 3ДисклеймерКак потерять всех друзей-психологов и заставить их себя ненавидеть?Стань методологомНечего сказать

Слайд 4Педагогические и психологические тестыСпособность = чертаУровень способности = уровень чертыТрудность задания

Слайд 6ИзмерениеВ естественных науках:Понимание величины четко определеноСравнение с эталоном (пре-реквизит: эталоны четко

Слайд 7КонструктыВы когда-нибудь видели критическое мышление или тревожность ходящими по комнате?Если да,

Слайд 8Операциональное определениеОперациональное определение – определение конструкта в терминах операций, выполняемых при

Слайд 9ОперационализацияИзмерения в психологии и образованииОперациональное определениеОперациональное определение – определение конструкта в

Слайд 10ВалидностьДействительно ли Ваш тест измеряет конструкт в Вашем понимании?Давным-давно в далекой-далекой

Слайд 11Разработка тестаГенерализацияЭкстраполяцияИнтерпретацияBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИВЫБОРКА

Слайд 12Измерения в психологии и образованииМЕЛКАЯ МОТОРИКАРазработка теста

Слайд 13Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОперационализация: под

Слайд 14Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОпределение области

Слайд 15Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEПОСТОРОННИЕ ЧЕРТЫМелкая

Слайд 16Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEПОСТОРОННИЕ ЧЕРТЫКОНТЕКСТЧеловеку

Слайд 17Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEПОСТОРОННИЕ ЧЕРТЫКОНТЕКСТМЕТОД

Слайд 18Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИПОСТОРОННИЕ

Слайд 19Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИПОСТОРОННИЕ

Слайд 20Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИЗнакомство

Слайд 21Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИЗнакомство

Слайд 22Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИВЫБОРКА

Слайд 23Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИВЫБОРКА

Слайд 24Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИВЫБОРКА

Слайд 25Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИВЫБОРКА

Слайд 26Разработка тестаBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИВЫБОРКА

Слайд 27Разработка тестаГенерализацияBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИВЫБОРКА

Слайд 28Разработка тестаГенерализацияBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИВЫБОРКА

Слайд 29Разработка тестаГенерализацияЭкстраполяцияBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИВЫБОРКА

Слайд 30Разработка тестаГенерализацияЭкстраполяцияBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИВЫБОРКА

Слайд 31Разработка тестаГенерализацияЭкстраполяцияИнтерпретацияBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИВЫБОРКА

Слайд 32Разработка тестаГенерализацияЭкстраполяцияИнтерпретацияBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИВЫБОРКА

Слайд 33Разработка тестаГенерализацияЭкстраполяцияИнтерпретацияBrennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACEОБЛАСТЬ ГЕНЕРАЛИЗАЦИИВЫБОРКА

Слайд 34Зачем это все?После получения тестового балла мы меняли только наше понимание

Слайд 35Кроме того: одномерность тестаКогда читаете про Альфу Кронбаха, всегда натыкаетесь на

Слайд 36ЭталоныЧто такое тестовый балл?Что является единицей измерения?Измерения в психологии и образовании

Слайд 37Концепт тестового баллаА одинакова ли разница между респондентами с 29 и

Слайд 38Ошибка измеренияКто о ней вообще думает?Самая известная модель классической теории тестирования:X

Слайд 39Ошибка измеренияПоскольку определить ошибку напрямую невозможно, для нее придуманы философские допущения.Есть

Слайд 40Систематическая ошибка измеренияСистематическая ошибка измерения систематически и предсказуемо изменяет его на

Слайд 41Случайная ошибка измеренияСредняя ошибка при бесконечном повторении тестирования равна нулю.Ошибки двух

Слайд 42Ошибка измерения и надежность тестаНадежность теста – это мера того, насколько

Слайд 43Инвариантность измерения относительно инструментаРазные варианты (формы) теста. Все задания разные: какие-то

Слайд 44Поговорим про практические аспекты?Трудность заданияРазличительная способность заданияНадежностьИзмерения в психологии и образовании

Слайд 45Трудность заданияВ дихотомическом случае(0/1 балл) коэффициент трудности равен доле правильно решивших

Слайд 46Различительная способность заданияВы хотите, что бы ваши задания выполняли сильные респонденты,

Слайд 47Коэффициенты корреляцииМы можем посмотреть, как связан балл за одно задание с

Слайд 48Коэффициенты корреляции (КК) Измерения в психологии и образовании

Слайд 49Коэффициенты корреляцииИзмерения в психологии и образовании

Слайд 50Критические значения параметровАЛЯРМ: КОНВЕНЦИОНАЛЬНЫЕ СТАНДАРТЫ!!!1Трудность:Редко когда мы заинтересованы в экстремально легких

Слайд 51Изящество классической моделиЭкстремально полезен коэффициент «Альфа Кронбаха, если удалить это задание

Слайд 52Итого: абсолютный релятивизмИзмеряемые величины плавают от одного определения к другому, от

Слайд 53Что же делать?Один тест не может сравниваться с другим тестом, только

Слайд 54Нужны ли тесты вообще?Да. Особенно хорошие.Экономически выгоднее (тиражируемость)Объективнее оценивают отдельные ключевые

Слайд 55Спасибо за внимание!Измерения в психологии и образованииhse.ru/ma/psyedu

Слайд 56Измерения в психологии и образовании

Слайд 57

Слайд 58Психологическое тестирование: математический взглядВыраженность конструктаЗадание 1:Задание 2:Задание 3:Задание 4:Измерения в психологии

Слайд 59Тестирование: математический взглядВыраженность конструктаЗадания:11110Респондент 1:10000Респондент 2:Где-то здесьИзмерения в психологии и образовании

Слайд 60Вероятность правильного ответаТрудность заданияЗадание 1Задание 2Про вероятность правильного ответа на вопросИзмерения

Слайд 61Шкалирование ГуттманаВероятность правильного ответаТрудность заданияЗадание 1Задание 2Измерения в психологии и образовании

Слайд 62Все сложнее: “дисперсия ошибки”Выраженность конструктаЗадания:11110Респондент 1:10000Респондент 2:11010Респондент 3:Где-то здесь?Измерения в психологии

Слайд 63Классическая Теория ТестированияВероятность правильного ответаТрудность заданияЗадание 1Задание 2Измерения в психологии и

Слайд 64Современная теория тестированияВероятность правильного ответаТрудность заданияЗадание 1Задание 2Логистическая регрессия: характеристическая кривая

Слайд 65Логистическая регрессияСупер-способностьБалл по вопросу010Измерения в психологии и образовании

Слайд 66Логистическая регрессияСупер-способностьБалл по вопросу01 0

Слайд 67θ – уровень подготовленности респондентаδ – уровень трудности заданияP – вероятность

Слайд 68Мы допускаем, что есть некоторый параметр здания (трудность), который лежит на

Слайд 69Получение 1 балла по заданию перестает рассматриваться как часть итогового тестового

Слайд 70Таким образом, мы можем смоделировать латентную непрерывную характеристику способностей испытуемых (и

Слайд 71Карта переменных (Wright Map, Kidmap, Variable Map)Измерения в психологии и образовании

Слайд 72Статистические основания продвинутых психометрических методов: пример теста из трех заданийВариация ответов,

Слайд 73Поговорим про моделиСтрого говоря, IRT – не теория, а набор моделейЭти

Слайд 74Дихотомические модели: 1PLУ фасета заданий оценивается только трудность, у фасета респондентов

Слайд 75“In reality no one does 3PL model. Even 2PL model using

Слайд 76Дихотомические модели: 5PLУ фасета заданий оценивается трудность, дискриминативность, угадывание, невнимательность и

Слайд 77Специфические моделиПолитомические модели (в том числе, для психологических данных)Многомерные модели (когда

Похожие презентации

Обратная связь

Слайд 1Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть?
Денис Федерякин, Ирина

Слайд 2Вы не можете этим управлять,
если не сможете это измерить
Измерения в

Слайд 3Дисклеймер
Как потерять всех друзей-психологов и заставить их себя ненавидеть?
Стань методологом

Нечего сказать

Слайд 4Педагогические и психологические тесты
Способность = черта
Уровень способности = уровень черты
Трудность задания

Слайд 6Измерение
В естественных науках:
Понимание величины четко определено
Сравнение с эталоном (пре-реквизит: эталоны четко

Слайд 7Конструкты
Вы когда-нибудь видели критическое мышление
или тревожность ходящими по комнате?
Если да,

Слайд 8Операциональное определение
Операциональное определение – определение конструкта в терминах операций, выполняемых при

Слайд 9
Операционализация
Измерения в психологии и образовании
Операциональное определение
Операциональное определение – определение конструкта в

Слайд 10Валидность
Действительно ли Ваш тест измеряет конструкт в Вашем понимании?
Давным-давно в далекой-далекой

Слайд 11Разработка теста
Генерализация
Экстраполяция
Интерпретация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

Слайд 12Измерения в психологии и образовании
МЕЛКАЯ МОТОРИКА
Разработка теста

Слайд 13Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Операционализация:
под

Слайд 14Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Определение области

Слайд 15Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ПОСТОРОННИЕ ЧЕРТЫ
Мелкая

Слайд 16Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
Человеку

Слайд 17Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД

Слайд 18Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ПОСТОРОННИЕ

Слайд 19Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ПОСТОРОННИЕ

Слайд 20Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

Знакомство

Слайд 21Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

Знакомство

Слайд 22Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

Слайд 23Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

Слайд 24Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

Слайд 25Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

Слайд 26Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

Слайд 27Разработка теста
Генерализация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

Слайд 28Разработка теста
Генерализация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

Слайд 29Разработка теста
Генерализация
Экстраполяция
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

Слайд 30Разработка теста
Генерализация
Экстраполяция
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

Слайд 31Разработка теста
Генерализация
Экстраполяция
Интерпретация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

Слайд 32Разработка теста
Генерализация
Экстраполяция
Интерпретация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

Слайд 33Разработка теста
Генерализация
Экстраполяция
Интерпретация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА

Слайд 34Зачем это все?
После получения тестового балла мы меняли только наше понимание

Слайд 35Кроме того: одномерность теста
Когда читаете про Альфу Кронбаха, всегда натыкаетесь на

Слайд 36Эталоны
Что такое тестовый балл?
Что является единицей измерения?
Измерения в психологии и образовании

Слайд 37Концепт тестового балла
А одинакова ли разница между респондентами с 29 и

Слайд 38Ошибка измерения
Кто о ней вообще думает?

Самая известная модель классической теории тестирования:
X

Слайд 39Ошибка измерения
Поскольку определить ошибку напрямую невозможно, для нее придуманы философские допущения.
Есть

Слайд 40Систематическая ошибка измерения
Систематическая ошибка измерения систематически и предсказуемо изменяет его на

Слайд 41Случайная ошибка измерения

Средняя ошибка при бесконечном повторении тестирования равна нулю.
Ошибки двух

Слайд 42Ошибка измерения и надежность теста
Надежность теста – это мера того, насколько

Слайд 43Инвариантность измерения относительно инструмента
Разные варианты (формы) теста.
Все задания разные: какие-то

Слайд 44Поговорим про практические аспекты?
Трудность задания
Различительная способность задания
Надежность
Измерения в психологии и образовании

Слайд 45Трудность задания
В дихотомическом случае
(0/1 балл) коэффициент трудности равен доле правильно решивших

Слайд 46Различительная способность задания
Вы хотите, что бы ваши задания выполняли сильные респонденты,

Слайд 47Коэффициенты корреляции
Мы можем посмотреть, как связан балл за одно задание
с

Слайд 48Коэффициенты корреляции (КК)

Измерения в психологии и образовании

Слайд 49Коэффициенты корреляции
Измерения в психологии и образовании

Слайд 50Критические значения параметров
АЛЯРМ: КОНВЕНЦИОНАЛЬНЫЕ СТАНДАРТЫ!!!1
Трудность:
Редко когда мы заинтересованы в экстремально легких

Слайд 51Изящество классической модели
Экстремально полезен коэффициент «Альфа Кронбаха, если удалить это задание

Слайд 52Итого: абсолютный релятивизм
Измеряемые величины плавают от одного определения к другому, от

Слайд 53Что же делать?
Один тест не может сравниваться с другим тестом, только

Слайд 54Нужны ли тесты вообще?
Да. Особенно хорошие.
Экономически выгоднее (тиражируемость)
Объективнее оценивают отдельные ключевые

Слайд 55Спасибо за внимание!
Измерения в психологии и образовании
hse.ru/ma/psyedu

Слайд 58Психологическое тестирование: математический взгляд

Выраженность конструкта
Задание 1:

Задание 2:

Задание 3:

Задание 4:
Измерения в психологии

Слайд 60Вероятность правильного ответа
Трудность задания

Задание 1
Задание 2
Про вероятность правильного ответа на вопрос
Измерения

Слайд 61Шкалирование Гуттмана
Вероятность правильного ответа
Трудность задания

Задание 1
Задание 2
Измерения в психологии и образовании

Слайд 63Классическая Теория Тестирования
Вероятность правильного ответа
Трудность задания

Задание 1
Задание 2
Измерения в психологии и

Слайд 64Современная теория тестирования
Вероятность правильного ответа
Трудность задания

Задание 1
Задание 2

Логистическая регрессия: характеристическая кривая

Слайд 65Логистическая регрессия
Супер-способность
Балл по вопросу
0
1

0
Измерения в психологии и образовании

Слайд 66Логистическая регрессия
Супер-способность
Балл по вопросу
0
1

0

Слайд 67θ – уровень подготовленности респондента
δ – уровень трудности задания
P – вероятность

Слайд 71Карта переменных (Wright Map, Kidmap, Variable Map)
Измерения в психологии и образовании

Слайд 72
Статистические основания продвинутых психометрических методов: пример теста из трех заданий

Вариация ответов,

Слайд 73Поговорим про модели
Строго говоря, IRT – не теория, а набор моделей
Эти

Слайд 74Дихотомические модели: 1PL
У фасета заданий оценивается только трудность, у фасета респондентов

Слайд 76Дихотомические модели: 5PL
У фасета заданий оценивается трудность, дискриминативность, угадывание, невнимательность и

Слайд 77Специфические модели
Политомические модели (в том числе, для психологических данных)
Многомерные модели (когда