Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть презентация

Содержание

Слайд 1Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть?
Денис Федерякин, Ирина

Угланова
НИУ ВШЭ, Институт образования, Измерения в психологии и образовании


При подготовке использовались материалы
Тюменевой Ю.А., Васина Г.М., Кардановой Е.Ю.


Слайд 2Вы не можете этим управлять,
если не сможете это измерить
Измерения в

психологии и образовании

Слайд 3Дисклеймер
Как потерять всех друзей-психологов и заставить их себя ненавидеть?
Стань методологом

Нечего сказать

про исследование?
Пристань к методологии

Как выбрать лучший тест?
Никак. Все тесты разные, и это нормально.

Измерения в психологии и образовании



Слайд 4Педагогические и психологические тесты
Способность = черта
Уровень способности = уровень черты
Трудность задания

= трудность согласиться
с утверждением

Правильный ответ на задание говорит о самом высоком уровне способности, которое может измерить это задание; вариант ответа «Абсолютно согласен» говорит о самом высоком уровне черты, которое может измерить задание.

Измерения в психологии и образовании


Слайд 5Почему именно тесты?
Отделение одной характеристики респондентов от смежных
Объективность и справедливость
Экономически выгодно
Тиражируемость
Предсказуемость

результатов применения:
Таблицы Taylor-Russell и таблицы Lawshe: сколько процентов поступающих на работу будут справляться с ней при определенной корреляции баллов по инструменту и job performance
Таблицы Naylor-Shine: показывает как много денег для организации заработают сотрудники в зависимости от корреляции баллов по инструменту и результативности сотрудника при сравнении с набранными случайно

Измерения в психологии и образовании



Слайд 6Измерение
В естественных науках:
Понимание величины четко определено
Сравнение с эталоном (пре-реквизит: эталоны четко

заданы и конвертируемы друг в друга)
Присутствует ошибка измерения (ВСЕГДА), но иногда ею можно пренебречь
Не зависит относительно измерительного инструмента

В социальных науках:
Все плохо
Но: по одному шагу за раз.

Измерения в психологии и образовании



Слайд 7Конструкты
Вы когда-нибудь видели критическое мышление
или тревожность ходящими по комнате?
Если да,

Вам следует обратиться за помощью.
Ненаблюдаемые (латентные) конструкты не существуют в реальности
То, что мы измеряем – это наше представление об определенных чертах или способностях (операционализация конструкта, модель конструкта)

Измерения в психологии и образовании



Слайд 8Операциональное определение
Операциональное определение – определение конструкта в терминах операций, выполняемых при

его измерении

Измерения в психологии и образовании

Напрямую конструкты измерить невозможно, поэтому мы:
Собираем свидетельства о проявлении некоторого поведения
Допускаем, что это поведение объясняется нашим пониманием конструкта
Допускаем, что чем чаще проявляется определенное поведение,
тем сильнее выражен конструкт
Допускаем, что все многообразие поведения, соответствующее конструкту, объясняется только этим конструктом и ничем другим

Один конструкт = одна размерность



Слайд 9
Операционализация
Измерения в психологии и образовании
Операциональное определение
Операциональное определение – определение конструкта в

терминах операций, выполняемых при его измерении


Слайд 10Валидность
Действительно ли Ваш тест измеряет конструкт в Вашем понимании?
Давным-давно в далекой-далекой

галактике существовала только
критериальная валидность, и все были очень тревожные.
Конструктная валидность – это выход.
Валидность – это сумма доказательств,
поддерживающих вашу интерпретацию тестового балла
Процесс валидизации никогда не может быть полностью завершен,
поэтому Вы можете собирать свидетельства о валидности хоть всю жизнь.

Измерения в психологии и образовании

Измеряет ли тест то, что Вы хотите им измерить?



Слайд 11Разработка теста
Генерализация
Экстраполяция
Интерпретация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ





ЗАКЛЮЧЕНИЕ




Слайд 12Измерения в психологии и образовании
МЕЛКАЯ МОТОРИКА
Разработка теста


Слайд 13Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Операционализация:
под

мелкой моторикой мы понимаем то, насколько скоординировано человек двигает пальцами?
Или как ловко он оперирует мелкими предметами?

Слайд 14Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Определение области

проявления поведения: мелкая моторика может проявляться в бесконечном множестве ситуаций.

От того, насколько ловко человек ковыряется в носу, до часового и ювелирного мастерства.

Слайд 15Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ПОСТОРОННИЕ ЧЕРТЫ
Мелкая

моторика связана с общей координацией движений и физическим развитием?
С социальной ситуацией действия: человек может мастерски ковыряться в носу, но не показывать этого на людях?

Слайд 16Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
Человеку

может нравиться быть часовщиком, но может не нравиться ковыряться в носу.
Или наоборот.
¯\_(ツ)_/¯

Слайд 17Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД

СБОРА ДАННЫХ

Опросник, основанный на самоотчете;
эксперимент (как много гаек он закрутит пальцами, пока не скажет, что с него хватит);
наблюдение.

Или ещё миллион способов.


Слайд 18Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ПОСТОРОННИЕ

ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ


Это все, конечно, прекрасно, но мы будем исследовать мелкую моторику по тому, как он играет в LEGO.


Слайд 19Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ПОСТОРОННИЕ

ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ



Знакомство и отношение испытуемого к LEGO


Слайд 20Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ



Знакомство

и отношение испытуемого к LEGO

Испытуемому нравятся наборы The Avengers, а мы будем использовать наборы Star Wars


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ


Слайд 21Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ



Знакомство

и отношение испытуемого к LEGO

Испытуемому нравятся наборы The Avengers, а мы будем использовать наборы Star Wars


Дизайн сбора данных


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ


Слайд 22Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА


ИНДИКАТОРОВ


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ



Использование данных о процессе деятельности или использование результата деятельности?


Слайд 23Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА


ИНДИКАТОРОВ


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ



Мы будем смотреть на то, собран ли конструктор и на
время сбора конструктора.


Слайд 24Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА


ИНДИКАТОРОВ


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ



Что бы Вы не решили оценивать, сами оценки должны быть продуманы.
Нужно задать правила начисления баллов.


Слайд 25Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА


ИНДИКАТОРОВ


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ



2 балла – конструктор аккуратно и полностью собран;
1 балл – конструктор собран неаккуратно или неполностью;
0 баллов – конструктор не собран.

Время – в секундах


Слайд 26Разработка теста
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ




Психометрические характеристики инструмента?
Кроме Альфы Кронбаха что-то еще существует?


Слайд 27Разработка теста
Генерализация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ




Как испытуемый играет с LEGO Star Wars Collection?


Слайд 28Разработка теста
Генерализация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ





Допущение: респондент играет со всем LEGO точно так же, как и с Star Wars Collection


Слайд 29Разработка теста
Генерализация
Экстраполяция
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ





Как респондент работает со всем LEGO?


Слайд 30Разработка теста
Генерализация
Экстраполяция
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ






Допущение: респондент работает со всем LEGO точно так же, как и работает со всеми мелкими предметами


Слайд 31Разработка теста
Генерализация
Экстраполяция
Интерпретация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ






То, как респондент обращается с мелкими предметами, действительно отображает уровень развития его мелкой моторики?


Слайд 32Разработка теста
Генерализация
Экстраполяция
Интерпретация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ





ЗАКЛЮЧЕНИЕ



«У респондента мелкая моторика развита лучше, чем у N% населения»


Слайд 33Разработка теста
Генерализация
Экстраполяция
Интерпретация
Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE
ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ
ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ


ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ





ЗАКЛЮЧЕНИЕ



«Респондент относится к уровню «Высокий» по уровню развития мелкой моторики с вероятностью К»


Слайд 34Зачем это все?
После получения тестового балла мы меняли только наше понимание

того, что тестовый балл значит. Но больше ничего не менялось.
Не совсем так.
Мы работаем с выборкой. Если выборка репрезентативна, то на этих шагах делаются математические допущения о распределении черты в генеральной совокупности (во всей популяции людей, на которую мы можем распространять результаты).
А если нерепрезентативная?
Ой, всё.

Измерения в психологии и образовании


Слайд 35Кроме того: одномерность теста
Когда читаете про Альфу Кронбаха, всегда натыкаетесь на

то, что «она не должна использоваться как мера одномерности теста»
Чё?

Одномерность предполагает, что все многообразие поведения, стоящего за конструктом можно отразить одномерной шкалой.

Действия, которые должны относиться к нашему конструкту, происходят из-за нашего конструкта. И только из-за него.

Респондент не может быть лучше в одном аспекте конструкта, чем в другом.

Измерения в психологии и образовании



Слайд 36Эталоны
Что такое тестовый балл?
Что является единицей измерения?
Измерения в психологии и образовании


Слайд 37Концепт тестового балла
А одинакова ли разница между респондентами с 29 и

30 баллами и респондентами с 30 и 31?
Тестовый балл дискретен, конструкт тоже?

Измерения в психологии и образовании


Слайд 38Ошибка измерения
Кто о ней вообще думает?

Самая известная модель классической теории тестирования:
X

= T + E, где
X – это полученный (наблюдаемый, тестовый) балл
T – это истинный балл
E – это ошибка определения истинного балла

Ошибка есть всегда. Какие-то ответы определяются истинной способностью испытуемого, а какие-то – ошибкой.
Как определить, какие ответы будут истинными?

Измерения в психологии и образовании



Слайд 39Ошибка измерения
Поскольку определить ошибку напрямую невозможно, для нее придуманы философские допущения.
Есть

случайная ошибка измерения.
Есть систематическая ошибка измерения.

Измерения в психологии и образовании


Слайд 40Систематическая ошибка измерения
Систематическая ошибка измерения систематически и предсказуемо изменяет его на

одну и ту же величину

Как её определить?
Никак, она входит в истинный балл, поехали дальше.

Измерения в психологии и образовании



Слайд 41Случайная ошибка измерения

Средняя ошибка при бесконечном повторении тестирования равна нулю.
Ошибки двух

людей не связаны, ошибки двух вопросов не связаны.
Ошибка не связана с истинным баллом.

Измерения в психологии и образовании

Случайная ошибка измерения (Standard Error of Measurement) – это общий эффект всех неконтролируемых и неспецифических влияний на тестовый балл.



Слайд 42Ошибка измерения и надежность теста
Надежность теста – это мера того, насколько

данные свободны от ошибки
Измеряет ли тест вообще что-либо или все результаты – набор ошибок?

Но как определить величину ошибки, если не существует даже единицы измерения?
Напрямую – никак

Множество мер надежности, самая известная
[и самая плохая] – α Кронбаха

Измерения в психологии и образовании



Слайд 43Инвариантность измерения относительно инструмента
Разные варианты (формы) теста.
Все задания разные: какие-то

легче, какие-то труднее.
Как доказать, что варианты теста эквивалентны?
Как определить, какие баллы по одному варианту эквивалентны каким баллам по другому?
Проще умереть.


Измерения в психологии и образовании



Слайд 44Поговорим про практические аспекты?
Трудность задания
Различительная способность задания
Надежность
Измерения в психологии и образовании


Слайд 45Трудность задания
В дихотомическом случае
(0/1 балл) коэффициент трудности равен доле правильно решивших

задание от всей выборки (среднему баллу за задание)

В политомическом случае
(шкала Ликерта от 1 до 4) коэффициент трудности равен среднему баллу по заданию, деленному на количество категорий задания

80%

20%

30%

70%

Задание 1

Задание 2

P-value = 0.8

P-value = 0.3

15%

30%

45%

10%

Relative p-value = 1.5
Absolute p-value = 0.38

1

2

3

4

P-value – коэффициент трудности


Слайд 46Различительная способность задания
Вы хотите, что бы ваши задания выполняли сильные респонденты,

и не выполняли слабые, т.е., чтобы ваши задания дифференцировали респондентов по уровню способности
NB!: Это не вопрос

Существует несколько способов измерить различительную способность задания
Посмотреть различия «самых сильных» и «самых слабых» респондентов
Коэффициенты корреляции: корреляция балла по заданию с баллом по тесту (+ скорректированные коэффициенты корреляции)

Измерения в психологии и образовании



Слайд 47Коэффициенты корреляции
Мы можем посмотреть, как связан балл за одно задание
с

итоговым баллом по тесту
Связано должно быть сильно
И положительно, если вопрос прямой

Зачем на это смотреть?
Итоговый балл за задание – выраженность конструкта
Связь балла за задание с итоговым баллом – связь отдельного аспекта конструкта с конструктом в целом





Измерения в психологии и образовании



Слайд 48Коэффициенты корреляции (КК)
 
Измерения в психологии и образовании


Слайд 49Коэффициенты корреляции
Измерения в психологии и образовании


Слайд 50Критические значения параметров
АЛЯРМ: КОНВЕНЦИОНАЛЬНЫЕ СТАНДАРТЫ!!!1
Трудность:
Редко когда мы заинтересованы в экстремально легких

задания (>0.95) и экстремально трудных заданиях (<0.05)
Различительная способность:
Мы не заинтересованы в заданиях с низкой (<0.20) и, тем более отрицательной различительной способностью
Взаимосвязь различных мер различительной способности изучена плохо, т.к. показатель зависит от многих факторов.
Но конвенциональный стандарт 0.20 един для всех мер

Измерения в психологии и образовании



Слайд 51Изящество классической модели
Экстремально полезен коэффициент «Альфа Кронбаха, если удалить это задание

из теста» - если тест становится без этого заданий более надежным, это плохой знак. Очень плохой.

Измерения в психологии и образовании


Слайд 52Итого: абсолютный релятивизм
Измеряемые величины плавают от одного определения к другому, от

одной операционализации к другой
Единых эталонов измерения нет, даже внутри одного теста
Ошибка измерения неотделима от истинного балла непосредственно, поэтому придумано множество косвенных способов, как её определить опосредованно (и ни один из них не правилен абсолютно)
Измерение зависит от варианта измерительного инструмента

Психология – наука победившего постмодернизма
(как и педагогика).

Измерения в психологии и образовании



Слайд 53Что же делать?
Один тест не может сравниваться с другим тестом, только

если это не цели валидизации
«Ну, мааааааам, эта опелацианализация лууууучше!»
vs.
«Модель конструкта, заложенная в этот тест, лучше отвечает целям нашей работы».

Работать в современной теории тестирования

Измерения в психологии и образовании



Слайд 54Нужны ли тесты вообще?
Да. Особенно хорошие.
Экономически выгоднее (тиражируемость)
Объективнее оценивают отдельные ключевые

характеристики
Справедливость и равенство (лишены индивидуальных искажений экспертов)

Измерения в психологии и образовании


Слайд 55Спасибо за внимание!
Измерения в психологии и образовании
hse.ru/ma/psyedu


Слайд 56Измерения в психологии и образовании


Слайд 58Психологическое тестирование: математический взгляд





Выраженность конструкта
Задание 1:





Задание 2:





Задание 3:





Задание 4:
Измерения в психологии

и образовании

Слайд 59Тестирование: математический взгляд





Выраженность конструкта
Задания:
1
1
1
1
0
Респондент 1:
1
0
0
0
0
Респондент 2:
Где-то здесь

Измерения в психологии и образовании


Слайд 60Вероятность правильного ответа
Трудность задания












Задание 1
Задание 2
Про вероятность правильного ответа на вопрос
Измерения

в психологии и образовании

Слайд 61Шкалирование Гуттмана
Вероятность правильного ответа
Трудность задания












Задание 1
Задание 2
Измерения в психологии и образовании


Слайд 62Все сложнее: “дисперсия ошибки”





Выраженность конструкта
Задания:
1
1
1
1
0
Респондент 1:
1
0
0
0
0
Респондент 2:
1
1
0
1
0
Респондент 3:
Где-то здесь

?
Измерения в психологии

и образовании

Слайд 63Классическая Теория Тестирования
Вероятность правильного ответа
Трудность задания












Задание 1
Задание 2
Измерения в психологии и

образовании

Слайд 64Современная теория тестирования
Вероятность правильного ответа
Трудность задания












Задание 1
Задание 2

Логистическая регрессия: характеристическая кривая

респондента (Person Characteristic Curve, PCC)

Измерения в психологии и образовании


Слайд 65Логистическая регрессия
Супер-способность
Балл по вопросу
0
1

























0
Измерения в психологии и образовании


Слайд 66Логистическая регрессия
Супер-способность
Балл по вопросу
0
1

























 
0


Слайд 67θ – уровень подготовленности респондента
δ – уровень трудности задания
P – вероятность

правильно ответить на задание


Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам


Слайд 68Мы допускаем, что есть некоторый параметр здания (трудность), который лежит на

одной на одной шкале с параметром испытуемого (способностью)
Чем больше разница между этими параметрами (их разность по модулю,
|θ-δ|), тем сильнее вероятность ответа отличается от 0,5


Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам


Слайд 69Получение 1 балла по заданию перестает рассматриваться как часть итогового тестового

балла
Оно рассматривается как дихотомическое событие, вероятность наступления которого зависит от разницы между трудностью и способностью


Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам


Слайд 70Таким образом, мы можем смоделировать латентную непрерывную характеристику способностей испытуемых (и

заданий)
NB!: вероятность никогда не будет равна 0 или 1 (в силу формулы)


Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам


Слайд 71Карта переменных (Wright Map, Kidmap, Variable Map)
Измерения в психологии и образовании


Слайд 72
Статистические основания продвинутых психометрических методов: пример теста из трех заданий


Вариация ответов,

определяющаяся целевым конструктом

Вариация ситуативной ошибки

Неодномерность теста (т.н. «локальная зависимость заданий», «Local Item Dependency», LID)

Измерения в психологии и образовании


Слайд 73Поговорим про модели
Строго говоря, IRT – не теория, а набор моделей
Эти

модели используются, потому что они удобны, никакой теоретической рамки за этим набором моделей нет
IRT Моделирует вероятность исхода случайного дихотомического события на основе ряда других дихотомических событий
Представляет собой конфирматорный факторный анализ (CFA) с использованием логистических, а не линейных уравнений. Смена типа уравнений увеличивает количество информации, которую мы можем получить и о тесте, и о респондентах.
Если Вы поняли этот пункт, то зачем Вы вообще нас слушали до этого момента?
Существует большое количество различных моделей, но традиционно их разделяют на два семейства:
Семейство моделей Раша (Rasch Modeling)
Собственно IRT-модели

Измерения в психологии и образовании


Слайд 74Дихотомические модели: 1PL
У фасета заданий оценивается только трудность, у фасета респондентов

– только способность
Дискриминативность считается фактором, не влияющим на вероятность ответа
Все ICC параллельны
Объяснительная модель

Измерения в психологии и образовании


Слайд 75“In reality no one does 3PL model. Even 2PL model using

is seldom. However, I’m going to show you 5PL model.”

Dr. David Stillwell, Cambridge Psychometrics Centre
7 Sep 2017

Измерения в психологии и образовании


Слайд 76Дихотомические модели: 5PL
У фасета заданий оценивается трудность, дискриминативность, угадывание, невнимательность и

«снижение» (unfolding), у фасета респондентов – только способность
ICC могут пересекаться, имеют нижнюю асимптоту, верхнюю асимптоту и немонотонны
СУПЕР описательная модель

Слайд 77Специфические модели
Политомические модели (в том числе, для психологических данных)
Многомерные модели (когда

несколько шкал коррелируют друг с другом)
Многофасетные модели (когда в модель включаются дополнительные фасеты, влияющие на вероятность получить определенный балл за задание, например, проверяющие)
Тестлет-модели (когда несколько шкал иерархически вкладываются в одну)
Многоуровневые модели (когда выборка кластеризована на основе содержательного признака)
Модели для номинальных данных (Nominal Response Models)
Модели для ипсативных данных (Thurtstonian IRT Model)
Модели, учитывающие время ответа на вопрос
И другие…

Измерения в психологии и образовании


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика