Оценка качества теста

Тип работы:
Курсовая
Предмет:
Педагогика


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Московский государственный университет путей сообщения

Институт управления и информационных технологий

Кафедра: «Автоматизированные системы управления»

КУРСОВОЙ ПРОЕКТ

По дисциплине: «Методы и системы качества продукции»

ТЕМА: «Оценка качества теста».

Выполнили: студентка Бочарова И., Амелюшкин С.

Преподаватель: Дружинин Ю. Г.

Москва 2010

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

1. ПОНЯТИЕ АДАПТИВНОГО ТЕСТИРОВАНИЯ И ПРИНЦИПЫ ЕГО РЕАЛИЗАЦИИ

2. КЛАССИЧЕСКИЕ ШКАЛЫ ОЦЕНКИ ЗНАНИЙ И ITEM RESPONSE THEORY

2.1 ОСНОВНЫЕ ДОПУЩЕНИЯ IRT

2.2 МАТЕМАТИЧЕСКИЕ МОДЕЛИ IRT

3. ОБРАБОТКА РЕЗУЛЬТАТОВ ТЕСТА

3.1 ПОСТРОЕНИЕ ХАРАКТЕРИСТИЧЕСКИХ КРИВЫХ ДЛЯ ЗАДАНИЙ ТЕСТА

3.2 ПОСТРОЕНИЕ ИНФОРМАЦИОННЫХ ФУНКЦИЙ

ВЫВОД

СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ

Введение

адаптивный тестирование знание информационный

Цели работы.

Создать тест и оценить его качество по теории IRT. В конце работы выдать рекомендации по улучшению теста.

Задачи.

Изучить теорию IRT оценки качества тестов, провести необходимые расчеты используя однопараметрическую модель Раша.

Весьма важным аспектом педагогической деятельности является оценивание преподавателем знаний обучаемых. Одним из способов быстрой проверки знаний является тестирование. Однако кажущаяся простота создания тестов и возросший спрос на них породили множество некачественных материалов, называемых тестами.

При разработке тестов нужно учитывать два момента:

1. разработка тестов, способных адекватно оценить знания обучаемых — это не просто составление заданий и объединение их в тест. Тест — это система заданий, в которой каждое задание должно удовлетворять определенным критериям;

2. нельзя сводить проверку знаний к одному лишь тестированию. С помощью тестов нельзя проверить, например, доказательство теорем, и, конечно же, никакое тестирование не заменит живой беседы обучаемого с преподавателем. Поэтому достаточно часто тестирование применяется как первый этап сдачи экзамена, по результатам которого осуществляется допуск ко второму этапу — собеседованию с преподавателем.

Разработка тестовых заданий и обработка результатов тестирования очень важны, однако не менее важное значение имеет порядок предъявления заданий обучаемому и метод определения его уровня знаний по результатам тестирования, т. е. модель тестирования. При измерении уровня знаний согласно классической модели тестирования, для каждого обучаемого формируется тест определенной длины из выбранных случайным образом заданий тестового пространства. При этом тесты отличаются по сложности, и итоговая оценка формируется по числу правильных ответов с учетом весовых коэффициентов заданий. Недостатком такого тестирования может быть появление ситуаций, когда слабому студенту попадается сложный тест и как следствие этого — практическое отсутствие ответов. С другой стороны сильный студент может получить легкий тест и не реализовать свои способности. Для обеспечения максимальной информативности результатов контроля необходимо, чтобы средняя сложность предъявляемого обучаемому теста соответствовала его гипотетическому уровню обученности. Практически это можно осуществить с помощью адаптивного тестирования.

1. Понятие адаптивного тестирования и принципы его реализации

Под адаптивным тестовым контролем понимают компьютеризованную систему научно обоснованной проверки и оценки результатов обучения, обладающую высокой эффективностью за счет оптимизации процедур генерации, предъявления и оценки результатов выполнения адаптивных тестов. Эффективность контрольно-оценочных процедур повышается при использовании многошаговой стратегии отбора и предъявления заданий, основанной на алгоритмах с полной контекстной зависимостью, в которых очередной шаг совершается только после оценки результатов выполнения предыдущего шага.

После выполнения испытуемым очередного задания каждый раз возникает потребность в принятии решения о подборе трудности следующего задания в зависимости от того, верным или неверным был предыдущий ответ. Алгоритм отбора и предъявления заданий строится по принципу обратной связи, когда при правильном ответе испытуемого очередное задание выбирается более трудным, а неверный ответ влечет за собой предъявление последующего более легкого задания, чем-то, на которое испытуемым был дан неверный ответ.

Также есть возможность задания дополнительных вопросов по темам, которые обучаемый знает не очень хорошо для более тонкого выяснения уровня знаний в данных областях. Таким образом, можно сказать, что адаптивная модель напоминает преподавателя на экзамене — если обучаемый отвечает на задаваемые вопросы уверенно и правильно, преподаватель достаточно быстро ставит ему положительную оценку. Если обучаемый начинает «плавать», то преподаватель задает ему дополнительные или наводящие вопросы того же уровня сложности или по той же теме. И, наконец, если обучаемый с самого начала отвечает плохо, оценку преподаватель тоже ставит достаточно быстро, но отрицательную.

Достоинства

Позволяет более гибко и точно измерять знания обучаемых;

Позволяет измерять знания меньшим количеством заданий, чем в классической модели;

Выявляет темы, которые обучаемый знает плохо и позволяет задать по ним ряд дополнительных вопросов.

Недостатки:

Заранее неизвестно, сколько вопросов необходимо задать обучаемому, чтобы определить его уровень знаний. Если вопросов, заложенных в систему тестирования, оказывается недостаточно, можно прервать тестирование и оценивать результат по тому количеству вопросов, на которое ответил обучаемый;

Возможно применение только на ЭВМ.

2. Классические шкалы оценки знаний и Item Response Theory

Классическая теория тестирования (Clasical Test Theory -- CTT) изначально создана для интерпретации диагностических процедур. Эта теория создавалась под чисто прикладные задачи, поэтому некоторые предположения, используемые в основаниях этой теории, необходимо прояснить, тем более что в литературе эти основания почти не обсуждаются.

В классической теории тестирования предполагается явно:

1. Одномерность, т. е. процедура тест измеряет только одно качество, готовность или способность.

2. Репрезентативность, в рамках CTT понимаемая как независимость вероятности той или иной оценки от того, какая подгруппа из общей популяции будет выполнять тест.

3. Независимость заданий, т. е. задания не зависят друг от друга.

4. Независимость ответов испытуемых.

Обе упомянутых независимости понимаются как минимум в статистическом смысле. Поскольку диагностические процедуры в большинстве случаев проводились в виде тестов, причём в большинстве тестов в форме закрытых или, реже, открытых вопросов, то результат каждого ответа предполагался измеримым в баллах по некоторой шкале.

Кроме явных предположений, в этой теории заложены некоторые неявные предположения. В частности, неявно предполагается:

-- измеримость всех возможных ответов, т. е. существование эффективной процедуры получения ответа на любой поставленный вопрос,

-- полнота ответов, т. е. получение ответов на все поставленные вопросы, из чего следует, что отказы от ответов во внимание не принимаются,

-- равнозначимость всех вопросов и, следовательно, равные веса всех поступивших ответов,

-- равенство дисперсий при использовании параллельных форм ответов,

-- нормальное распределение ответов.

Как и в случае технических измерений, неявно предполагается, что любой результат измерений складывается из истинного значения и ошибки измерения, и ошибки измерения предполагаются аддитивными, что нужно для корректности перехода от сумм ошибок к одной интегральной ошибке, причём интегральная ошибка тоже предполагается нормально распределённой.

Насколько корректны эти допущения, обычно не обсуждается. Во всяком случае, самые серьёзные вопросы по поводу CTT связаны с обеспечением реальной независимости заданий. Не обсуждается также и вопрос о выборе оценочных шкал, в качестве исходного допущения предполагается, что «сырые баллы» уже получены.

Более тонкий вопрос связан с метрологическим смыслом категории «ошибка». В технических измерениях неявно предполагается, что ошибка и порождённая ею погрешность -- свойство измерительной процедуры, и, следовательно, погрешность в принципе можно оценить и учесть по результатам поверки и калибровки. При измерениях эргатических элементов появляется ещё один источник ошибок -- нестабильность самого измеряемого, возникающая вследствие действия различных факторов, к самым важным из которых можно отнести обучение, забывание, утомление и динамику функционального состояния. Поправки на эти факторы в метрологии не обсуждаются.

Для получения итоговой оценки используются различные вычислительные процедуры. Чаще всего вычисляется средний балл по обычной формуле среднего арифметического

,

где -- итоговый балл i-го испытуемого, и квадрат отклонения от среднего или варианты этого показателя -- среднеквадратическое отклонение или дисперсия. Для сравнения результатов используется коэффициент корреляции между заданиями и между испытуемыми.

Как вариант, иногда используется взвешенный средний балл вида

,

где -- соответствующие весовые коэффициенты.

Из всех перечисленных выше предположений труднее всего доказывать равнозначимость ответов, поскольку это требует доказательств субъективного равенства всех трудностей соответствующих ответов и одновременно доказательств одинаковой важности всех поставленных вопросов. Предположение о вычислимости упомянутых статистических показателей требует содержательных доказательств корректности гомеоморфного вложения шкалы баллов в шкалу действительных чисел, в которой на самом деле выполняются подобные вычисления. Другими словами, вопросы как по критериальной, так и по конструктной валидности обычно остаются открытыми.

Кроме упомянутых стандартных статистических показателей (вопрос о математической корректности которых обычно не обсуждается) для испытуемых, оцениваются некоторые психометрические характеристики измерительных процедур с ясным прагматическим, но сомнительным математическим смыслом, например, коэффициент лёгкости задания

,

где -- средняя оценка, полученная за задание, -- максимально возможная оценка за это же задание, при том, что минимальная возможная оценка за любое задание по умолчанию предполагается нулевой, коэффициент дискриминации задания, т. е. коэффициент корреляции между результатом задания и итоговым результатом, или считающийся более информативным вариант -- коэффициент корреляции между результатом задания и итоговым результатом без учёта этого задания, и некоторые другие коэффициенты, толкование которых в этой науке отличается от общепринятого.

В частности, надёжность здесь, в отличие от стандартного понимания, считается качеством не системы или объекта, а измерения, и оценивается не через время исправной работы или какие-либо варианты этого времени, например, в терминах наработки на отказ, а как возможность получения сопоставимых показателей, оцениваемых через коэффициент корреляции. Из такого толкования получаются последовательная надёжность, т. е. коэффициент корреляции между результатами выполнения двух заданий, расстояние по времени между которыми достаточно для того, чтобы эти задания можно было бы считать субъективно независимыми, параллельная надёжность, т. е. коэффициент корреляции между результатами вариантов заданий, надёжность частей, т. е. коэффициент корреляции между результатами всей процедуры измерений и какой-либо его части, и другие показатели. Другими словами, последовательной надёжностью в этой науке называют то, что в профессиональной теории измерений считают количественной мерой test-retest-валидности, параллельной надёжностью и надёжностью форм -- мерой test-subtest-валидности, и в целом наблюдается путаница в терминологии, что приводит к смешиванию валидности и надёжности.

По другой версии, коэффициент надёжности определяется как

,

где -- дисперсия ошибок измерения, -- дисперсия набранных баллов, т. е. время в таком определении коэффициента надёжности вообще не упоминается.

Сомнительность подобных вычислений с математической точки зрения связана с тем, что исходные данные изначально получены по шкале баллов, на которой бывает задано отношение порядка, и даже линейного порядка, но не определены арифметические операции. Следовательно, сложение и вслед за ним вычисление средних, взвешенных средних, дисперсий и корреляций на шкале баллов не определено. Ещё одно предположение, понятное с прагматической точки зрения, но с явно неадекватным теоретическим обоснованием, сводится к утверждениям о нормальном распределении ответов и, следовательно, с распределением «сырых баллов» на шкале действительных чисел. Предположение о логнормальном распределении тех же баллов часто кажется более правдоподобным, но содержательно обычно тоже не обосновывается. Эти предположения позволяют использовать при статистической обработке результатов хорошо известные методы, но математическая корректность всех последующих вычислений после этого предположения не обсуждается.

В литературе широко обсуждаются многие проблемы традиционного подхода к построению шкал (метрик) знаний как баллов за выполнение некоторых специально подобранных наборов заданий.

Прежде всего, практически невозможно доказать test-to-test- и intertest-валидность, следовательно, вопрос о сравнении и тем более об общем учёте результатов измерений, выполненных по разным методам, остаётся открытым.

Многократно отмечены «эффекты края», т. е. относительная устойчивость результатов ближе к медиане распределения ответов и неустойчивые результаты по краям этого распределения, что обычно объясняется возрастанием роли инородных факторов как в «нижней», так и в «верхней» части распределения. В качестве борьбы с этими эффектами обычно предлагается эмпирически обоснованная рекомендация задать некоторый «доверительный квантиль» распределения, обычно предлагается принять, или, и при попадании ответа ниже или выше вносить поправки на нестабильность, главным образом, завышать полученные оценки по эмпирически подобранным поправочным формулам.

В случае закрытых вопросов возможны ситуации случайного угадывания, для коррекции данных в этом случае предлагается вносить поправки вида

,

где -- результат после коррекции, -- результат (в баллах или другим шкалам) ответа на -й вопрос до коррекции, -- количество возможных ответов на -й вопрос, w -- количество невыполненных заданий в серии измерений. Эта формула обосновывается эмпирически, в частности, обсуждается вопрос о целесообразности учёта в этой формуле невыполненных заданий, для которых соответствующее значение, что уменьшает значение, и идут дискуссии о содержательном смысле подобных поправок.

В целом, метрики качества знаний при классическом подходе обоснованы статистической калибровкой методов по соответствующей популяции. Со времён создания IQ метрологическое обоснование измерений знаний проводится по распределениям баллов, вычисленных по соответствующему контингенту респондентов. Например, указываются средние значения IQ по возрастным, социальным или профессиональным группам. Однако из разницы IQ непонятно, какие принципиальные отличия в структуре знаний различают эти группы.

Item Response Theory

В качестве средства обеспечения содержательной корректности метрик качества знаний в 50-е годы была предложена и с начала 80-х годов стала популярной Item Response Theory — IRT.

В IRT предполагается, что получаемые баллы оказываются внешними проявлениями результатов действия неких ненаблюдаемых переменных -- латентных параметров, и ставится задача оценить эти параметры по результатам выполненным измерениям.

Первоначальный вариант IRT связан с именем Г. Раша. В IRT результат измерения считается внешним проявлением латентной переменной, и ставится задача восстановить оценку латентной переменной по измерениям видимых переменных. Для -го испытуемого значение латентной переменной, обычно интерпретируемой как оценка готовности, и уровень трудности -го задания расположены на одной шкале, измеримы в сравнимых единицах, которые в этой теории называются логиты, и поэтому вычислима разность.

В IRT предполагается существование семейства функций вида

,

где -- вероятность того, что -й испытуемый выполнит -е задание. Точный вид зависимости может меняться, в модели могут также могут дополнительные параметры. Таким образом, предполагается, что вероятность успеха зависит только от разницы между уровнем готовности и сложностью задания, при этом уровень готовности отдельных испытуемых и уровень сложности задания предполагаются независимыми как минимум в статистическом смысле.

При использовании логистической функции, можно определить вероятность успеха -го испытуемого при решении-го задания как

,

где k -- некий масштабный множитель, который используется для согласования различных шкал и моделей, и соответствующие интегральные характеристики сложности заданий для -го испытуемого и готовности испытуемого к решению-го задания.

Часто вместо модели Раша используется модель Фергюссона, в которой вместо логистической функции используется функция нормального распределения, тогда для совместимости этих двух моделей в модели Раша используется коэффициент. Принято считать, что модель Раша позволяет отделить трудности заданий от готовности испытуемых, т. е. от субъективной сложности заданий.

В однопараметрической модели Раша заложено предположение о равнозначности всех заданий. Для коррекции этого предположения вводится дополнительный параметр, характеризующий различительную силу заданий. Отсюда получается исправленная модель вида

,

известная под названием двухпараметрической IRT, или модели Бирнбаума. Для учёта поправок на угадывание Бирнбаум предложил учитывать ещё один дополнительный параметр и получил трёхпараметрическую модель вида

,

где можно оценить, например, как вероятность случайного угадывания правильного ответа на соответствующий вопрос. Иногда также называют уровнем или коэффициентом псевдоуспеха, то есть вероятностью ответить на задание правильно для испытуемых с минимальной готовностью.

Очевидно, что при получается двухпараметрическая модель Бирнбаума, а при и -- логистическая модель Раша.

Оценки параметров и обычно выполняются по известным статистическим приёмам, например, через построение подходящей функции правдоподобия. Известны также быстрые методы приближённой оценки этих параметров. При ясности вычислительных моделей IRT, однако, отмечены вопросы о содержательной интерпретации заложенных в них параметров. В частности, отмечены «краевые эффекты» этих моделей, это означает, что испытуемые, ответившие на все вопросы и не ответившие ни на один вопрос, не должны учитываться в общей статистике.

IRT считается общепризнанной, и обычно ставится вопрос только о калибровке по отношению к соответствующим параметрам.

Таким образом, центральной проблемой в оценке качества знаний оказывается проблема оценки субъективной когнитивной сложности или, как минимум, калибровка измерительного инструментария по критерию когнитивной сложности.

2. 1 ОСНОВНЫЕ ДОПУЩЕНИЯ IRT

1) существуют латентные (скрытые) параметры личности, недоступные для непосредственного наблюдения. В тестировании это уровень подготовленность испытуемого и уровень трудности задания;

2) существуют индикаторные переменные, связанные с латентными параметрами, доступные для непосредственного наблюдения. По значениям индикаторных переменных можно судить о значениях латентных параметров;

3) оцениваемый латентный параметр должен быть одномерным. Это означает должен измерять знания только в одной, четко заданной, предметной области.

2.2 МАТЕМАТИЧЕСКИЕ МОДЕЛИ IRT

В качестве математической модели, связывающей успех испытуемого с уровнем его подготовленности и трудностью задания выбирается логистическая функция. Для модели Раша она имеет вид

(1)

(2)

Масштабный множитель 1,7 используется для совместимости модели G. Rasch с моделью A. Fergusson, где вероятность правильного ответа на задание выражена интегралом нормального распределения что позволяет использовать вместо логистических кривых хорошо изученную интегральную функцию нормированного нормального распределения

(3)

Модель Раша носит название «1 Parametric Logistic Latent Trait Model» (1PL), а модель A. Fergusson — «1 Parametric Normal Ogive Model» (1PN). Поскольку модель Раша описывает вероятность успеха испытуемого как функцию одного параметра (иi — вj), то иногда ее называют однопараметрической моделью IRT.

Взаимодействие двух множеств иi и вj образует данные, обладающие свойством «совместной аддитивности» (conjoint additivity). Правильное использование модели Раша позволяет отделить оценки испытуемых от оценок трудности заданий и наоборот. Это свойство Rasch Measurement носит название separability parameter estimates8 — «независимость оценок заданий от испытуемых и оценок испытуемых от параметров заданий».

На рис. 1. показаны три характеристические кривые согласно уравнению (1) с трудностями заданий -2, 0 и +2 логита (первое самое легкое, второе — среднее, третье самое трудное). Из приведенных зависимостей видно, что чем выше уровень подготовленности и испытуемого, тем выше вероятность успеха в том или ином задании.

Рис. 1. Характеристические кривые заданий (ICC) в модели (1PL).

Например, для испытуемого с и =0 вероятность правильно ответить на первое задание близка к единице, на второе равна ½ и на третье почти равна нулю. Отметим, что в точках, где и = в вероятность правильного ответа равна 0,5. То есть, если трудность задания равна уровню подготовленности (ability) испытуемого, то он с равной вероятностью может справиться или не справиться с этим заданием.

Характеристические (логистические) кривые для заданий теста в англо-язычной литература называются Item Characteristic Curve (ICC).

На рис. 2. показаны три характеристические кривые испытуемых согласно уравнению (2) — «Person Characteristic Curve» (PCC). Показаны графики для трех испытуемых с уровнем подготовленности -2 логита (самый слабый), 0 логитов (средний) и +2 логита (сильный испытуемый).

Из приведенных зависимостей видно, что чем выше уровень подготовленности, тем выше вероятность правильного ответа на задание. Например, задание с трудностью b = 0 первый испытуемый (q=-2) практически не сможет выполнить, второй q = 0) имеет вероятность выполнения задания равную 0,5, третий q=+2) легко справится с заданием, так как для него вероятность успеха почти равна единице.

Рис. 2. Характеристические кривые испытуемых (PCC) в модели 1PL.

3. Обработка результатов теста

Последовательность ответов означает запись из порядковых номеров выбранных ответов (было возможно 4 ответа).

Правильная последовательность — 1 4 3 3 1 2 3 1 4 1

Таблица 1. Ответы опрашиваемых.

Номер испытуемого

Последовательность его ответов

Количество ошибок

1

1 4 3 3 4 3 3 3 4 1

3

2

1 4 3 4 1 4 3 3 4 1

3

3

1 4 3 3 2 2 2 3 3 1

4

4

1 4 3 3 3 4 3 3 3 1

4

5

1 4 3 3 1 2 3 1 4 1

0

6

1 4 1 3 2 1 3 3 1 1

5

7

1 4 3 3 2 2 3 3 4 1

2

8

1 4 3 3 4 2 3 3 4 1

2

9

1 4 3 4 1 2 3 1 4 1

1

10

1 4 3 3 2 4 3 3 4 1

3

11

1 4 3 3 2 2 3 3 3 1

3

12

1 3 3 3 4 1 3 3 4 1

4

13

1 4 3 4 2 4 3 3 4 1

4

14

1 4 3 3 1 2 3 3 4 1

1

15

1 4 3 3 3 1 3 3 1 1

3

16

1 4 2 3 3 2 3 3 4 1

4

17

1 4 3 3 1 2 3 1 4 1

0

18

1 4 3 4 2 2 3 3 4 1

3

19

1 4 3 3 1 2 3 1 4 1

0

20

1 4 3 3 4 1 3 1 4 1

2

Таблица 2. Вероятность правильного ответа на вопрос

Номер вопроса.

Вероятность правильного ответа на вопрос

1

1

2

1

3

0. 9

4

0. 8

5

0. 3

6

0. 55

7

1

8

0. 25

9

0. 75

10

1

Рекомендуется рассматривать лишь интервалы от -6 до +6 как для b (трудности), так и для q (способность). Значит мы не будем рассматривать 5,17,19-го опрашиваемого, давшего все правильные ответы, и вопросы 1, 10 на которые все испытуемые дали верный ответ.

Процедура вычисления иi и вj из эмпирических данных.

Вычисление доли верных pi и неверных qi=1- pi ответов испытуемых.

где Xi — индивидуальный балл испытуемого, M — количество заданий в тесте.

Далее вычисляем начальные значения уровня подготовленности испытуемых по формуле

Далее вычисляем начальное значение трудности заданий вj.

Таблица 3. Начальные значения уровня подготовленности испытуемых

i

Xi

pi

qi

qi0

(qi0)2

1

5

0. 625

0. 375

0. 511

0. 261

2

5

0. 625

0. 375

0. 511

0. 261

3

4

0. 5

0. 5

0

0

4

4

0. 5

0. 5

0

0

5

10

1

0

6

3

0. 375

0. 625

-0. 511

0. 261

7

6

0. 75

0. 25

1. 099

1. 208

8

6

0. 75

0. 25

1. 099

1. 208

9

7

0. 875

0. 125

1. 946

3. 786

10

5

0. 625

0. 375

0. 511

0. 261

11

5

0. 625

0. 375

0. 511

0. 261

12

4

0. 5

0. 5

0

0

13

4

0. 5

0. 5

0

0

14

7

0. 875

0. 125

1. 946

3. 786

15

5

0. 625

0. 375

0. 511

0. 261

16

5

0. 625

0. 375

0. 511

0. 261

17

10

1

0

18

5

0. 625

0. 375

0. 511

0. 261

19

10

1

0

20

6

0. 75

0. 25

1. 099

1. 208

13. 284

Таблица 4. Начальные значения трудности заданий.

j

Rj

pi

qi

bj0

(bj0)2

1

17

1

0

2

16

0. 941

0. 059

-2. 769

7. 67

3

15

0. 882

0. 118

-2. 011

4. 046

4

13

0. 765

0. 235

-1. 18

1. 393

5

3

0. 176

0. 824

1. 54

2. 383

6

8

0. 47

0. 43

-0. 089

0. 008

7

16

0. 941

0. 059

-2. 769

7. 669

8

2

0. 117

0. 883

2. 021

4. 085

9

12

0. 706

0. 294

-0. 876

0. 767

10

17

1

0

28. 021

Теперь мы можем вычислить средние значения уровня подготовленности испытуемых и трудности заданий.

(0. 511*7+0+0−0. 511+1. 099*3+1. 946*2)/17=0. 569

(-2. 769−2. 011−1. 18+1. 54−0. 089−2. 769+2. 021−0. 876)/8=-0. 7666

В таблицах 3 и 4 мы имеем значения параметров на разных интервальных шкалах. Нам надо свести их в единую шкалу стандартных оценок. Для этого необходимо вычислить дисперсии Sи и Sв, используя данные из таблиц 3 и 4

.

(13. 284−18*(0. 569)^2)/16=0. 439

(28. 021−8*(-0. 7666)^2)/7=3. 331

Далее вычисляем угловые коэффициенты

1. 615

1. 182

мы можем записать оценки параметров и и в на единой интервальной шкале

Получим

иi = 1,615·иi0 -0. 7666

вj=1. 182· вj0 +0. 569

Таблица 5. Расчетные параметры для уровня подготовленности испытуемых

i

иi

SE (иi)

1

0. 059

1. 179

2

0. 059

1. 179

3

-0. 7666

1. 154

4

-0. 7666

1. 154

5

6

-1. 592

1. 179

7

1. 008

1. 321

8

1. 008

1. 321

9

2. 376

1. 727

10

0. 059

1. 179

11

0. 059

1. 179

12

-0. 7666

1. 154

13

-0. 7666

1. 154

14

2. 376

1. 727

15

0. 059

1. 179

16

0. 059

1. 179

17

18

0. 059

1. 179

19

20

1. 008

1. 321

j

вj

SEj)

1

2

-2. 704

1. 183

3

-1. 808

0. 863

4

-0. 826

0. 658

5

2. 389

0. 731

6

0. 464

0. 619

7

-2. 704

1. 183

8

-1. 819

0. 866

9

-0. 466

0. 611

Вычисление стандартных ошибок измерения SEi) и SEj) для иi. и вj

Таблица 6 Расчет вероятности успеха испытуемого с заданием с определенным уровнем сложности

вj. Трудность задания

Значение вероятности успеха испытуемого с уровнем подготовленности (-5 до 5 с шагом 0.5 логита)

-2. 704

p[1][1]=0. 197 782

p[1][2]=0. 450 795

p[1][3]=0. 994 635

p[1][4]=0. 205 348

p[1][5]=0. 376 789

p[1][6]=0. 585 841

p[1][7]=0. 767 955

p[1][8]=0. 885 624

p[1][9]=0. 947 688

p[1][10]=0. 976 951

p[1][11]=0. 990 017

p[1][12]=0. 995 708

p[1][13]=0. 998 161

p[1][14]=0. 999 213

p[1][15]=0. 999 664

p[1][16]=0. 999 856

p[1][17]=0. 999 939

p[1][18]=0. 999 974

p[1][19]=0. 999 989

p[1][20]=0. 999 995

p[1][21]=0. 999 998

-1. 808

p[2][1]=0. 437 964

p[2][2]=0. 10 187

p[2][3]=0. 235 132

p[2][4]=0. 533 326

p[2][5]=0. 116 459

p[2][6]=0. 2357

p[2][7]=0. 419 117

p[2][8]=0. 627 989

p[2][9]=0. 797 961

p[2][10]=0. 902 349

p[2][11]=0. 955 791

p[2][12]=0. 980 613

p[2][13]=0. 991 621

p[2][14]=0. 996 401

p[2][15]=0. 998 459

p[2][16]=0. 999 341

p[2][17]=0. 999 718

p[2][18]=0. 999 879

p[2][19]=0. 999 948

p[2][20]=0. 999 978

p[2][21]=0. 999 991

-0. 826

p[3][1]=0. 827 892

p[3][2]=0. 193 483

p[3][3]=0. 451 511

p[3][4]=0. 105 003

p[3][5]=0. 242 261

p[3][6]=0. 548 988

p[3][7]=0. 119 645

p[3][8]=0. 241 257

p[3][9]=0. 426 585

p[3][10]=0. 635 109

p[3][11]=0. 80 285

p[3][12]=0. 905 012

p[3][13]=0. 957 066

p[3][14]=0. 981 187

p[3][15]=0. 991 871

p[3][16]=0. 996 509

p[3][17]=0. 998 505

p[3][18]=0. 999 361

p[3][19]=0. 999 727

p[3][20]=0. 999 883

p[3][21]=0. 99 995

2. 389

p[4][1]=3. 50506e-06

p[4][2]=8. 20056e-06

p[4][3]=1. 91862e-05

p[4][4]=4. 48878e-05

p[4][5]=0. 105 015

p[4][6]=0. 245 664

p[4][7]=0. 574 578

p[4][8]=0. 134 328

p[4][9]=0. 313 715

p[4][10]=0. 730 909

p[4][11]=0. 169 349

p[4][12]=0. 387 427

p[4][13]=0. 861 718

p[4][14]=0. 180 746

p[4][15]=0. 340 448

p[4][16]=0. 547 036

p[4][17]=0. 738 599

p[4][18]=0. 868 607

p[4][19]=0. 939 272

p[4][20]=0. 973 109

p[4][21]=0. 988 327

0. 464

p[5][1]=9. 24454e-05

p[5][2]=0. 216 263

p[5][3]=0. 505 832

p[5][4]=0. 118 267

p[5][5]=0. 276 265

p[5][6]=0. 643 978

p[5][7]=0. 149 379

p[5][8]=0. 342 638

p[5][9]=0. 766 471

p[5][10]=0. 162 628

p[5][11]=0. 312 426

p[5][12]=0. 515 295

p[5][13]=0. 713 246

p[5][14]=0. 85 336

p[5][15]=0. 931 579

p[5][16]=0. 969 563

p[5][17]=0. 98 676

p[5][18]=0. 994 298

p[5][19]=0. 997 555

p[5][20]=0. 998 953

p[5][21]=0. 999 552

-2. 704

p[6][1]=0. 197 782

p[6][2]=0. 450 795

p[6][3]=0. 994 635

p[6][4]=0. 205 348

p[6][5]=0. 376 789

p[6][6]=0. 585 841

p[6][7]=0. 767 955

p[6][8]=0. 885 624

p[6][9]=0. 947 688

p[6][10]=0. 976 951

p[6][11]=0. 990 017

p[6][12]=0. 995 708

p[6][13]=0. 998 161

p[6][14]=0. 999 213

p[6][15]=0. 999 664

p[6][16]=0. 999 856

p[6][17]=0. 999 939

p[6][18]=0. 999 974

p[6][19]=0. 999 989

p[6][20]=0. 999 995

p[6][21]=0. 999 998

-1. 819

p[7][1]=0. 446 194

p[7][2]=0. 103 773

p[7][3]=0. 239 464

p[7][4]=0. 542 847

p[7][5]=0. 118 397

p[7][6]=0. 239 085

p[7][7]=0. 423 676

p[7][8]=0. 632 347

p[7][9]=0. 800 959

p[7][10]=0. 903 984

p[7][11]=0. 956 574

p[7][12]=0. 980 966

p[7][13]=0. 991 775

p[7][14]=0. 996 468

p[7][15]=0. 998 487

p[7][16]=0. 999 353

p[7][17]=0. 999 723

p[7][18]=0. 999 882

p[7][19]=0. 999 949

p[7][20]=0. 999 978

p[7][21]=0. 999 991

-0. 466

p[8][1]=0. 449 107

p[8][2]=0. 105 012

p[8][3]=0. 245 346

p[8][4]=0. 572 142

p[8][5]=0. 132 843

p[8][6]=0. 305 371

p[8][7]=0. 686 381

p[8][8]=0. 147 066

p[8][9]=0. 28 745

p[8][10]=0. 485 554

p[8][11]=0. 688 304

p[8][12]=0. 837 834

p[8][13]=0. 923 593

p[8][14]=0. 965 848

p[8][15]=0. 985 112

p[8][16]=0. 993 582

p[8][17]=0. 997 247

p[8][18]=0. 998 821

p[8][19]=0. 999 496

p[8][20]=0. 999 784

p[8][21]=0. 999 908

3. 1 ПОСТРОЕНИЕ ХАРАКТЕРИСТИЧЕСКИХ КРИВЫХ ДЛЯ ЗАДАНИЙ ТЕСТА (ICC)

На рисунке получилось 6 а не 8 кривых т.к. 2 последних графика накладываются на 2 других. Это видно из 2 рисунков ниже.

Наложение P[1] и P[6]

Наложение P[2] и P[7]

3. 2 ИНФОРМАЦИОННАЯ ФУНКЦИЯ

Согласно А. Бирнбауму количество информации, обеспеченное j-м заданием теста в данной точке иi — это величина, обратно пропорциональная стандартной ошибке измерения данного значения иi с помощью j-го задания. Для описания информации, соответствующей заданию вводится информационная функция I (и)

Для однопараметрической модели Pj' = 1,7PjQj, тогда

Ij(и) = 2,89Pj(и)Qj(и), где Qj(и) = 1 — Pj(и)-вероятность неверного ответа на j-е задание. Поскольку

то выражение для информационной функции

Построим информационную функцию для однопараметрической модели

Информационные функции обладают свойством аддитивности

Это означает, что можно построить информационную функцию всего теста

Информационная функция теста должна иметь один четко выраженный максимум. Если это не так, то тест нуждается в доработке, в него необходимо добавить задания с трудностями, соответствующими областями провала информационной функции теста.

Вывод

Характеристические кривые некоторых заданий, а именно 2 и 7; 3 и 8 перекрываются. В связи с этим 7 и 8 задания могут быть удалены из теста без ущерба его измерительным свойствам.

Этот тест явно нуждается еще в заданиях с трудностями в области +1.5 логит. Улучшения информационной функции теста можно добиться и не изменяя числа заданий в нем. Для этого необходимо сдвинуть задание № 5 влево, то есть уменьшить его трудность.

СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ

1). Ким В. С. «Тестирование учебных достижений. 2007»

2) Дружинин Ю. Г. «Метрики качества знаний»

3). Иформационные ресурсы Internet.

http: //testolog. narod. ru/Theory60. html

http: //www. wikiznanie. ru/ru- wz/index. php/Использование_Теории_тестовых_заданий_(Item_Response_Theory)_в_адаптивном_тестировании

http: //www. ahmerov. com/book757_chapter39_6.5. _Stokhasticheskaja_teorija_testov_(IRT). html

ПоказатьСвернуть
Заполнить форму текущей работой