Класична теорія тестування

Класи́чна тео́рія тестува́ння (КТТ, англ. classical test theory, CTT) — це сукупність пов'язаних психометричних теорій, що передбачують результати психологічного тестування, як-от складність завдань або здібності тестованих. Це теорія тестування на основі ідеї, що спостережувана чи отримана оцінка особи в тесті є сумою істинної оцінки (безпомилкової оцінки) та оцінки похибки.^[1] Загалом, метою класичної теорії тестування є розуміння та вдосконалення надійності(інші мови) психологічних тестів.

Класичну теорію тестування можна вважати приблизно синонімом теорії істинної оцінки (англ. true score theory). Термін «класична» стосується не лише хронології цих моделей, але й контрастує з новішими психометричними теоріями, які зазвичай називають теорією відгуку завдання, а іноді й «сучасними», як у «сучасній теорії латентних рис».

Класична теорія тестування, якою ми її знаємо сьогодні, була кодифікована в Novick, (1966) і описана в класичних текстах, як-от Lord та Novick, (1968) і Allen та Yen, (2002). Опис класичної теорії тестування нижче ґрунтується на цих оригінальних публікаціях.

Історія

Класична теорія тестування народилася лише після концептуалізації наступних трьох досягнень або ідей:

усвідомлення наявності похибок у вимірюваннях,
уявлення про цю похибку як про випадкову змінну,
розуміння кореляції та способів її індексації.

1904 року Чарльз Спірмен був відповідальним за розробку способу коригування коефіцієнта кореляції для згасання через похибку вимірювання, а також способу отримання індексу надійності, необхідного для такого коригування.^[2] Відкриття Спірмена деякі вважають початком класичної теорії тестування (Traub, 1997). До іншх, хто вплинули на формування класичної теорії тестування, належать Джордж Удні Юл, Трумен Лі Келлі(інші мови), Фріц Кудер(інші мови) та Меріон Річардсон(інші мови), які брали участь у розробці формул Кудера — Річардсона(інші мови), Луїс Ґуттман(інші мови), а також, найнещодавніше, Мелвін Новік(інші мови), не кажучи вже про інших, протягом чверті століття після початкових знахідок Спірмена.

Визначення

Класична теорія тестування виходить з того, що кожна особа має істинну оцінку (англ. true score) T, яка була б отримана за відсутності похибок вимірювання. Істинну оцінку особи визначають як математичне сподівання оцінки за кількістю правильних відповідей за нескінченну кількість незалежних проведень тесту. На жаль, користувачі тестів ніколи не спостерігають істинну оцінку особи, а лише спостережувану оцінку (англ. observed score) X. Виходять з того, що спостережувана оцінка дорівнює істинній оцінці плюс певна похибка (англ. error):

      X         =     T     +     E
спостережувана     істинна     похибка
    оцінка          оцінка

Класична теорія тестування стосується взаємозв'язків між трьома змінними $X$ , $T$ і $E$ у сукупності. Ці взаємозв'язки використовують, щоби сказати щось про якість тестових оцінок. У цьому контексті найважливішим поняттям є надійність (англ. reliability). Надійність спостережуваних тестових оцінок $X$ , позначувану через ${\rho _{XT}^{2$ , визначають як відношення дисперсії істинної оцінки ${\sigma _{T}^{2$ до дисперсії спостережуваної оцінки ${\sigma _{X}^{2$ :

\rho _{XT}^{2}={\frac {\sigma _{T}^{2}{\sigma _{X}^{2

Оскільки можливо показати, що дисперсія спостережуваних оцінок дорівнює сумі дисперсії істинних оцінок і дисперсії похибок, це рівняння еквівалентне

\rho _{XT}^{2}={\frac {\sigma _{T}^{2}{\sigma _{X}^{2}={\frac {\sigma _{T}^{2}{\sigma _{T}^{2}+\sigma _{E}^{2

Це рівняння, яке формулює співвідношення сигнал/шум, має інтуїтивну привабливість: надійність тестових оцінок зростає пропорційно зменшенню частки дисперсії похибок у тестових оцінках і навпаки. Надійність дорівнює частці дисперсії тестових оцінок, яку можливо було би пояснити, якби ми знали істинні оцінки. Квадратний корінь із надійності є абсолютним значенням кореляції між істинними та спостережуваними оцінками.

Оцінювання тестів та оцінок: надійність

Докладніше: Надійність (психометрія)(інші мови)

Надійність неможливо оцінити безпосередньо, оскільки це потребувало би знання істинних оцінок, що за класичною теорією тестування неможливо. Проте можливо отримувати різними способами оцінки надійності. Один із методів оцінювання надійності — побудова так званого паралельного тесту (англ. parallel test). Основна властивість паралельного тесту полягає в тому, що він видає ту саму істинну оцінку й ту саму дисперсію спостережуваних оцінок, що й первинний тест, для кожної особи. Якщо ми маємо паралельні тести x і x', то це означає, що

\mathbb {E} [X_{i}]=\mathbb {E} [X'_{i}]

та

\sigma _{E_{i}^{2}=\sigma _{E'_{i}^{2

Із цих припущень випливає, що кореляція між оцінками паралельних тестів дорівнює надійності (доведення див. у Lord та Novick, 1968, гл. 2).

\rho _{XX'}={\frac {\sigma _{XX'}{\sigma _{X}\sigma _{X'}={\frac {\sigma _{T}^{2}{\sigma _{X}^{2}=\rho _{XT}^{2

Використання паралельних тестів для оцінювання надійності є громіздким, оскільки створювати паралельні тести дуже важко. На практиці цей метод використовують нечасто. Натомість дослідники використовують міру внутрішньої узгодженості, відому як альфа Кронбаха ( ${\alpha$ ). Розгляньмо тест, складений з $k$ завдань $u_{j$ , $j=1,\ldots ,k$ . Загальна оцінка за тестом визначається як сума оцінок в окремих завданнях, тож для особи $i$ :

X_{i}=\sum _{j=1}^{k}U_{ij

Тоді альфа Кронбаха дорівнює

\alpha ={\frac {k}{k-1}\left(1-{\frac {\sum _{j=1}^{k}\sigma _{U_{j}^{2}{\sigma _{X}^{2}\right)

Можливо показати, що ${\alpha$ Кронбаха забезпечує нижню межу надійності за доволі м'яких припущень.^{[джерело?]} Отже, надійність тестових оцінок у сукупності завжди вища за значення ${\alpha$ Кронбаха в цій сукупності. Тож цей метод емпірично зручний, а тому дуже популярний серед дослідників. Обчислення ${\alpha$ Кронбаха включено до багатьох стандартних статистичних пакетів, як-от SPSS та SAS(інші мови).^[3]

Як було зазначено вище, вся діяльність у межах класичної теорії тестування спрямована на отримання прийнятного визначення надійності. Надійність повинна дати уявлення про загальну якість обговорюваних тестових оцінок. Основна ідея полягає в тому, що чим вища надійність, тим краще. Класична теорія тестування не встановлює, наскільки високою має бути надійність. Надто високе значення ${\alpha$ , скажімо понад 0,9, вказує на надлишковість завдань. Для досліджень особистості радять значення близько 0,8, тоді як для індивідуального тестування з високими ставками бажано понад 0,9.^[4] Ці «критерії» не ґрунтуються на формальних аргументах, а радше є результатом звичаю та професійної практики. Міра їхньої відповідності формальним принципам статистичного висновування залишається незрозумілою.

Оцінювання завдань: P-значення та кореляція завдання з тестом

Надійність забезпечує зручний індекс якості тесту у вигляді єдиного числа — надійності. Проте вона не надає жодної інформації для оцінювання окремих завдань. Аналіз завдань у межах класичного підходу часто спирається на дві статистики: P-значення (англ. P-value, пропорцію) та кореляцію завдання з тестом (точково-бісеріальну кореляцію(інші мови)). P-значення подає частку іспитників, які відповіли у правильному напрямку, його зазвичай називають складністю завдання (англ. item difficulty). Кореляція завдання з тестом надає індекс розрізнювальності або розрізнювальної спроможності завдання, її зазвичай називають розрізнювальністю завдання (англ. item discrimination). Крім того, ці статистики обчислюють для кожної відповіді у часто використовуваних завданнях множинного вибору, використовуючи їх для оцінювання завдань і діагностування можливих проблем, як-от заплутувального відволікання (англ. confusing distractor). Такий цінний аналіз забезпечує спеціально розроблене психометричне програмне забезпечення(інші мови).

Альтернативи

Класична теорія тестування є впливовою теорією тестових оцінок у суспільних науках. У психометрії цю теорію витіснили складніші моделі, як-от теорія відгуку завдання (ТВЗ, англ. item response theory, IRT) та теорія узагальнюваності (англ. generalizability theory, G-theory). Проте ТВЗ не включено до стандартних статистичних пакетів, як-от SPSS, але SAS(інші мови) може оцінювати моделі ТВЗ за допомогою PROC IRT і PROC MCMC, а також існують пакети ТВЗ для відкритої статистичної мови програмування R (наприклад, CTT). Хоча комерційні пакети зазвичай надають оцінки ${\alpha$ Кронбаха, перевагу можуть віддавати використанню спеціалізованого психометричного програмного забезпечення(інші мови) для ТВЗ чи теорії узагальнюваності. Проте загальні статистичні пакети часто не забезпечують повного класичного аналізу ( ${\alpha$ Кронбаха є лише однією з багатьох важливих статистик), і в багатьох випадках також необхідне спеціалізоване програмне забезпечення і для класичного аналізу.

Вади

Однією з найважливіших чи найвідоміших вад класичної теорії тестування є те, що характеристики іспитника та характеристики тесту неможливо розділити: кожну з них можливо інтерпретувати лише в контексті іншої. Іншою вадою є визначення надійності, яке існує у класичній теорії тестування, що стверджує, що надійність є «кореляцією між оцінками тесту на паралельних формах тесту».^[5] Проблема тут полягає в тому, що існують різні думки щодо того, що таке паралельні тести. Різні коефіцієнти надійності надають або нижню межу оцінки надійності, або оцінки надійності з невідомими зміщеннями. Третя вада стосується стандартної похибки вимірювання. Проблема полягає в тому, що, за класичною теорією тестування, стандартну похибку вимірювання вважають однаковою для всіх іспитників. Проте, як пояснює Гемблтон у своїй книзі, оцінки в будь-якому тесті є нерівноточними мірами для іспитників із різними здібностями, що робить припущення про рівність похибок вимірювання для всіх іспитників неправдоподібним (Hambleton, Swaminathan та Rogers, 1991, с. 4). Четверта й остання вада класичної теорії тестування полягає в тому, що вона спрямована на тест, а не на завдання. Іншими словами, класична теорія тестування не може допомогти нам передбачувати, наскільки добре окремий іспитник чи навіть група іспитників могли би впоратися з якимось тестовим завданням.^[5]

Див. також

Примітки

↑ National Council on Measurement in Education (англ.). Архів оригіналу за 22 липня 2017.
↑ Traub, R. (1997). Classical Test Theory in Historical Perspective. Educational Measurement: Issues and Practice(інші мови) (англ.). 16 (4): 8—14. doi:10.1111/j.1745-3992.1997.tb00603.x.
↑ Pui-Wa Lei and Qiong Wu (2007). CTTITEM: SAS macro and SPSS syntax for classical item analysis. Behavior Research Methods (англ.). 39 (3): 527—530. doi:10.3758/BF03193021. PMID 17958163.
↑ Streiner, D. L. (2003). Starting at the Beginning: An Introduction to Coefficient Alpha and Internal Consistency. Journal of Personality Assessment. 80 (1): 99—103. doi:10.1207/S15327752JPA8001_18. hdl:11655/5356. PMID 12584072. S2CID 3679277.
↑ ^а ^б Hambleton, R.; Swaminathan, H.; Rogers, H. (1991). Fundamentals of Item Response Theory (англ.). Newbury Park, California: Sage Publications, Inc. Архів оригіналу за 2 серпня 2022.

Джерела

Allen, M.J.; Yen, W. M. (2002) [1979]. Introduction to Measurement Theory (англ.). Long Grove, IL: Waveland Press. ISBN 0818502835.
Novick, M.R. (February 1966). The axioms and principal results of classical test theory. Journal of Mathematical Psychology (англ.). 3 (1): 1—18. doi:10.1016/0022-2496(66)90002-2.
Lord, F. M.; Novick, M. R. (1968). Statistical theories of mental test scores (англ.). Reading MA: Addison-Welsley Publishing Company. ISBN 0201043106.

Література

Gregory, Robert J. (2011). Psychological Testing: History, Principles, and Applications (англ.) (вид. Sixth). Boston: Allyn & Bacon. ISBN 978-0-205-78214-7.
Hogan, Thomas P.; Brooke Cannon (2007). Psychological Testing: A Practical Introduction (англ.) (вид. Second). Hoboken (NJ): John Wiley & Sons. ISBN 978-0-471-73807-7.

Посилання

[1] National Council on Measurement in Education (англ.). Архів оригіналу за 22 липня 2017.

[2] Traub, R. (1997). Classical Test Theory in Historical Perspective. Educational Measurement: Issues and Practice(інші мови) (англ.). 16 (4): 8—14. doi:10.1111/j.1745-3992.1997.tb00603.x.

[Lei2007-3] Pui-Wa Lei and Qiong Wu (2007). CTTITEM: SAS macro and SPSS syntax for classical item analysis. Behavior Research Methods (англ.). 39 (3): 527—530. doi:10.3758/BF03193021. PMID 17958163.

[4] Streiner, D. L. (2003). Starting at the Beginning: An Introduction to Coefficient Alpha and Internal Consistency. Journal of Personality Assessment. 80 (1): 99—103. doi:10.1207/S15327752JPA8001_18. hdl:11655/5356. PMID 12584072. S2CID 3679277.

[Hambleton,_R._1991-5] а ^б Hambleton, R.; Swaminathan, H.; Rogers, H. (1991). Fundamentals of Item Response Theory (англ.). Newbury Park, California: Sage Publications, Inc. Архів оригіналу за 2 серпня 2022.

[1]

[2]

[3]

[4]

[5]