Морев И. А. Образовательные информационные технологии. Часть 2. Педагогические измерения: Учебное по

Стр. 57

И что же – не бывает хороших, в смысле традиционного понимания надежности, тестов? И тестология – не наука? Или мы не правильно воспринимаем понятие «чистоты эксперимента»? А может, тестологическое понятие «надежности» просто не адекватно действительности?

Давайте рассмотрим определение надежности, данное В. С. Аванесовым [Композиция тестовых заданий. Учебная книга. 3 изд., доп. М.. Центр тестирования, 2002г. -240с.]:

Надежность теста – показатель точности и устойчивости результатов измерения при его многократном применении. Надежность теста тем выше, чем «одинаковее» результаты его применения при тестировании однородных групп претендентов.

Теперь рассмотрим обсуждение надежности, данное тем же автором (текст приводится в сокращении):

Надежность характеризует степень адекватности отражения тестом соответствующей генеральной совокупности заданий. Раньше предполагалось, что мера надежности является устойчивой характеристикой теста. На надежность сильно влияет степень гомогенности групп испытуемых, уровень их подготовленности, а также другие факторы, связанные не столько с тестом, сколько с условиями его проведения. Поэтому в последние годы стали чаще писать о надежности измерения, имея в виду тест как результат тестирования в конкретно определенных условиях, а не общую характеристику теста как метода.

Подробно ситуацию с определением надежности теста в тестологии описал Е. А. Михайлычев [Дидактическая тестология. М.: Народное образование, 2001. – 432 с.].

Оказывается, недоверие к понятию «надежность» давно существует в среде тестологов. Так нужна ли она – «надежность»? Может, она должна уступить место другой характеристике, более адекватно отображающей свойства теста?

При внимательном рассмотрении тестологических работ можно заметить, что сами значения «коэффициента надежности», тщательному измерению которых посвящается так много сил, после измерения и вычисления нигде реально не применяются. Используется лишь мнение, порожденное в процессе измерения – «этот тест лучше, а тот – хуже». Но разве нельзя для упрочения мнения придумать другие, менее спорные критерии?

Понятие «надежность», оказывается, не одиноко, в смысле нашего критического рассмотрения. При повторении сеансов, так же, как значения коэффициента «надежности», «плывут» и значения весов заданий. При этом даже не важно – те же претенденты пришли на повторный сеанс, или другие. Важно лишь, чтобы сеансы были последовательными, а претенденты имели возможность общаться.

Морев И. А. Образовательные информационные технологии. Часть 2. Педагогические измерения: Учебное пособие