есть желание заново пройти курс "Тестирование в современном высшем образовании"
|
Обоснование качества теста
5.1. Критерии и методологии
Любое тестирование завершается математико-статистической обработкой данных тестирования и поиском причинно-следственных связей между параметрами тестирования (теста, заданий) результатами тестирования (качеством обучения).
Математико-статистический аппарат и поддерживающий его компьютерный инструментарий для обработки данных полноправно используются в теории педагогических измерений.
Согласно той или иной цели обработки результатов тестирования используют следующие основные методологии (теории):
- Classical Test Theory (КТТ) или классическая теория, которая позволяет найти оценки надежности измерений, согласованности и однородности тестовых заданий, валидности теста в целом на основе линейных преобразований "сырых" баллов, позволяет повысить сопоставимость результатов тестирования для различных групп испытуемых, без изменения порядковой шкалы результатов теста;
- Generalizability Theory (GT) или модификация КТТ на базе дисперсионного анализа ошибок измерений, выявления их источников;
- Item Response Theory (IRT) или оценки скрытых (латентных) параметров испытания (испытуемых и теста), рассматривая их распределения как непрерывные, используя интервальную шкалу, повышающую устойчивость и объективность оценок трудности заданий, независимость их от выборки испытуемых;
- Equating/Linking (E/L) или использование "разномастных" процедур измерения (шкалирование, выравнивание и др.), что эффективно при междисциплинарном тестировании.
Российская тестология чаще использует CTT и IRT. В классической теории, работа по оценке качества результатов тестирования по надёжности и валидности называется Item Analysis.
При крупномасштабном тестировании (национального масштаба, например) появляется необходимость в одновременном использовании нескольких методологий.
Пример. При национальном тестировании в США методологию КТТ используют для нахождения типичных коэффициентов надежности, GT – для описания их вариации, IRT – для адаптивного тестирования, а E/L – для получения итоговой оценки учебных достижений по результатам испытаний от поступления обучаемого до окончания им учебного заведения (до итоговой аттестации). Так выявляется динамика личностного развития.
Но основным критерием выбора методологии, математико-статистической теории при обработке результатов тестирования является полезность, информативность получаемых результатов.
Каковы остальные важные критерии для выбора тестов и тестирования?
К ним относятся:
- надежность теста, оцениваемая коэффициентом корреляции Пирсона между параллельными тестами на одной выборке, коэффициентом корреляции результатов практического тестирования и экспертных опенок, коэффициентом корреляции Спирмана-Брауна, коэффициентами надежности по Гутману или KR-20 и др.;
- валидность теста, оцениваемая на основе гипотезы нормальности распределения результатов тестирования и стандартного распределения ошибок (регрессионная модель) или стандартной "подгонкой" под такое распределение (ее модификацию, например, трансформацией шкалы – логонормальное распределение и логиты);
- дискриминативность теста, оценивающая способность теста отделять испытуемых с высокой продуктивностью от испытуемых с низкой продуктивностью учебной деятельности в достаточно большой выборке и с использованием, например, модели Раша (G. Rasch);
- трудность теста, оцениваемая индексом трудности (она рассмотрена подробно выше).
Эти основные критерии и процедуры не исчерпывают имеющееся значительное их количество. В идеале, они должны использоваться итерационно, интегрально, многокритериально и эволюционно.
Компетентностный подход к профессиональному образованию усиливает необходимость такого подхода к оцениванию качества обучения. Особенно, при использовании адаптивного, компьютерного обучения и тестирования.
Пример. В распространенной системе дистанционного обучения Moodle имеются процедуры оценки следующих показателей:
- индекс лёгкости (доля студентов, ответивших правильно на поставленный в задании вопрос);
- стандартное отклонение;
- случайная оценка угадывания (оценка при случайном угадывании варианта правильного ответа);
- индекс дискриминации;
- эффективность дифференциации и др.
Несмотря на наличие и важность таких оценок, при оценке качества тестов, тестирования должен учитываться и "стар-ап" – уровень подготовки студентов. Педагогические измерения зависят от личности и целевой группы испытуемых, для которых тест разработан.
Такие аспекты качества, как приемлемость гипотезы измерений, цели тестирования (не только метрические, но и педагогические, психологические и др.), представительная группа испытуемых и другие также должны быть учтены. Сами же тестовые баллы – результаты тестирования, которые не всегда можно интерпретировать как результаты качества обучения.
Каждая методология, метод оценки качества имеет свои "плюсы" и "минусы". Как и сама практика оценки знаний.
У последней, видимо, минусов больше (стихийность, нерациональность, не дидактичность, игнорирование особенностей предмета, целевой аудитории и др.).