Морев И. А. Образовательные информационные технологии. Часть 2. Педагогические измерения: Учебное по

Стр. 59

Б) результаты претендентов имеют тенденцию к группировке в двух районах области определения кривой распределения – рядом с точкой случайного «тыка» и рядом с пределом 100%:

Рис. 3.

В) надежность теста растет и постепенно становится самой высокой:

Рис. 4.

Веса заданий, по изначальному замыслу, вычисляются для мифического «усредненного» претендента. Ситуация с этим вычислением напоминает притчу о больнице, где в качестве показателя успешности работы вычисляли среднюю температуру больных, и средний больной был здоров (Тср = 36,6^о). Вместо того чтобы сравнить результаты учащихся двух школ между собой и прямо определить реального лидера, тестологи, в рамках действующей парадигмы, сравнивают их результаты с результатом «среднего ученика» (который не только не известен, но еще и «тестировался» в прошлом году). В итоге может случиться, например, ситуация, когда некое, легкое для «среднего ученика» задание, реальные, учившиеся у конкретного учителя, школьники не выполнили, но это мало повлияло на их итоговый результат. И наоборот.

Некоторые тестологи, видя, как «плавают» значения коэффициентов, придумали выход для «укрепления» теории: взять и запретить повторные тестирования. Так и случилось в первых экспериментальных всероссийских тестированиях «Телетестинг», проводившихся Центром «Гуманитарные технологии» (г. Москва). Но школьники оказались хитрее ученых мужей – они запоминали задания и передавали их, вместе с решениями, своим коллегам, ожидавшим сеанс в очереди в коридоре. «Впереди танков по минному полю шли тральщики». Каждый последующий сеанс проводился с более подготовленными претендентами. И веса поплыли. Если бы их значения вычислялись каждые два часа и по всей стране, мы бы увидели чудесные метаморфозы со школьниками, умнеющими на глазах, и с одними и теми же тестовыми заданиями, которые, в течение дня, становятся все проще и проще. Более того, мы бы увидели, что качество образования в России чудесным образом зависит от часового пояса (отгадайте, почему). Был ли смысл в скрупулезном расчете весов, длившемся несколько недель?

Давайте рассмотрим динамику результатов многократного прохождения одного и того же теста одной и той же группой претендентов. Для того чтобы картина не стала тривиальной, пусть тест будет вариативным, т. е. его задания каждый раз будут меняться, но спектр их типов будет сохраняться. Пусть веса заданий вычислены заранее так, как это требует теория, и не меняются.

Морев И. А. Образовательные информационные технологии. Часть 2. Педагогические измерения: Учебное пособие