Методические критерии качества измерений в общественных науках

Тип работы:
Лекция
Предмет:
Педагогика


Узнать стоимость

Детальная информация о работе

Выдержка из работы

ЛЕКЦИЯ

МЕТОДИЧЕСКИЕ КРИТЕРИИ КАЧЕСТВА ИЗМЕРЕНИЙ В ОБЩЕСТВЕННЫХ НАУКАХ

Результаты измерений должны отвечать требованиям точности и надежности, зависящим от того, насколько значительно само измерение. Если мы должны принять решение, стоит ли нам садиться рядом с незнакомым человеком на время 20-минутной поездки в автобусе, то нам бывает достаточно беглого наблюдения, например: не слишком ли он толст для того, чтобы рядом с ним было удобно сидеть; отвечает ли его одежда нашим представлениям о чистоте; не придется ли нам дышать дымом его сигареты? В этой ситуации наше решение может быть легко пересмотрено. Однако, если мы в течение нескольких ближайших месяцев должны будем работать вместе с кем-то на заводе, тогда мы постараемся за короткий срок получить как можно больше информации об этом лице и, возможно, даже договоримся об испытательном сроке.

В педагогической диагностике также стараются определить качество результатов измерения. Разработаны соответствующие критерии, которые позволяют дать оценку качеству измерения. Важнейшими из них являются:

1) объективность,

2) надежность,

3) валидность.

Эти критерии представлены здесь по образцу классической теории тестов, так как она все еще имеет наибольшее практическое значение и ее критерий качества в принципе подходят и для других теорий тестов.

ОБЪЕКТИВНОСТЬ

Мы говорим об объективности измерения в том случае, если результаты измерения максимально независимы от исследователя или, иными словами, если различные исследователи при измерении одного и того же признака приходят к одному и тому же результату. Или, формулируя иначе, можно сказать: измерение считается объективным, если удается максимально исключить интерсубъектные воздействия исследователей.

Это требование в отношении ограничения, исключения или контролируемости субъективных воздействий со стороны исследователя на результат измерения имеет основополагающее значение для любой эмпирически ориентированной науки. Так как разные люди обладают различной чувствительностью к теплу, то очевидно, что на субъективных оценках этих людей, определяющих теплоту предмета, нельзя строить научного исследования цель которого -- установление более точных различий в теплопроводности различных тел. Если результат измерения не позволяет определить, в какой степени он обусловлен признаками измеряемого предмета, а в какой -- признаками самого исследователя, если можно предположить, что другой исследователь пришел бы к совершенно иному результату, то в таком случае результат измерения не дает права делать выводы, выходящие за рамки данного случайного факта. Мы обязаны всегда иметь это в виду, когда признаки других лиц оценивают люди, не имеющие специального диагностического образования и опробованных измерительных инструментов. Ранее нами обсуждалось, насколько необъективно оценивает преподаватель школьную успеваемость. Для того чтобы уменьшить субъективные воздействия при оценке аналогичных фактов, необходимо установить в процессе оценки как можно больше согласованных между собой рабочих этапов. Эти унифицированные шаги чаще всего входят в понятия «объективность проведения измерения», «объективность обработки данных» и «объективность интерпретации результатов измерения».

Объективность проведения измерений требует, чтобы все учащиеся «были подвергнуты одному и тому же испытанию в аналогичных условиях. Для этого унифицируются задания, время обработки заданий, пояснения к заданиям, допустимые вспомогательные средства и т. д. Естественно, можно добиться только того, чтобы все учащиеся работали лишь в приблизительно равных условиях, ибо все они всегда по-разному чувствуют себя и в различной степени испытывают чувство страха перед тестированием. Однако невозможность достичь совершенно идентичных условий для проведения измерений еще не есть повод для того, чтобы отказаться от попыток их унификации. Необходимо стремиться -- насколько это возможно -- к объективности проведения измерений, ибо только в том случае можно сопоставить поведение учащегося с его прежним поведением Или с поведением других учеников, если наблюдения проводятся в максимально сходных условиях.

Едва ли учителю придет в голову мысль считать сопоставимыми результаты работы по математике, если одна часть учеников могла пользоваться _ карманными калькуляторами, а другая нет, если одни учащиеся имели в -два раза больше времени для выполнения задания, чем другие, н т. д. Однако требования к объективности проведения измерений могут быть и более жесткими. Например, в сборниках диктантов часто унифицируются только тексты. В тестах, диагностирующих владение орфографическими норнами, напротив, дают точные указания о том, как произносится слово, когда и е каком классе проводится тестирование, какое время для него отводится. Помимо этого, устанавливается, каким образом должно проводиться тестирование, как следует диктовать предложение, сколько раз можно повторить одно слово. Учащиеся видят в предложенных ям тестах предложения с пропусками. Опущенные слова диктуются трижды: сначала пропущенное слово, затем все предложение и в заключение еще раз пропущенное слово. Магнитофонные записи могли бы в еще большей степени способствовать унификация условий проведения измерений, но в таком случае необходимо, иметь достаточное количество воспроизводящей аппаратуры одинакового качества.

Удалось ли в необходимой мере обеспечить объективность проведения измерений, обычно устанавливается экспертами после изучения постановки заданий, инструкций для учащихся и рекомендаций организаторам тестирования. Наблюдая за поведением организаторов тестирования во время проведения теста, можно определить, какие различия обусловлены недочетами в самих рекомендациях.

Объективность обработки данных часто вызывала особый интерес. Большинство исследований, посвященных недостаткам традиционной системы оценки успеваемости, ссылаются на отсутствие объективности при обработке данных, о чем можно прочесть в главе о письменных и устных экзаменах. Если, к примеру, разные учителя по-разному оценивают одну и ту же классную работу, то они оценивают ее необъективно.

Для придания большей объективности процессу обработки данных можно -- в зависимости от требуемого поведения -- действовать по-разному. Можно заранее, установить критерии наблюдения за поведением учащихся и научить пользоваться этими критериями того, кто производит оценку. Но можно также составить задания таким образом, что для их выполнения достаточно написать число, слово или поставить крестик. Составленные таким образом и снабженные ключами задания практически исключают расхождения при обработке данных. Подобные материалы могут обрабатывать даже машины. Гораздо труднее обеспечить объективность интерпретации результатов измерения. Об объективности интерпретации можно говорить в том случае, когда несколько лиц одинаковым образом интерпретируют одни и те же результаты обработки, данных, т. е устанавливают одни и те же взаимосвязи. Эти взаимосвязи могут иметь более или менее сложный характер. Результат тестирования может быть включен согласно имеющимся таблицам норм в список, отражающий успеваемость на соответствующей ступени обучения, или в соответствии с перечнем учебных целей в список, отражающий достигнутый уровень обучения. Однако может оказаться необходимым, чтобы директор школы взвесил, снабдил количественными индексами и оценил, к примеру, данные тестирования, определяющего готовность ребенка к школе, результаты наблюдения за поведением ребенка во время тестирования, заключение школьного врача, а также сведения, полученные от родителей, с тем чтобы на основании своей оценки принять решение о том, может ли ребенок посещать школу, необходимы ли ему дополнительные занятия, следует ли ему еще некоторое время посещать школьный детский сад или же необходимо обратиться к школьному психологу.

Чем разнообразнее подлежащая обработке информация и чем ее больше, чем труднее интерпретировать ее объективно, т. е. исключая интерсубъектные воздействия. При определении готовности ребенка к школе различные директора будут неизбежно иметь различные точки зрения о возможностях дифференциации на первых занятиях, о стимулирующем влиянии школьного детского сада и т. д. Полное исключение субъективных оценок означало бы изгнание из педагогики личностного момента, благодаря которому преподаватель оказывает педагогическое воздействие на оцененные тем или иным образом факты. Мы далеки от этой цели. Однако можно добиться того, чтобы те лица, которые дают опенку, были знакомы с проблематикой и старались сначала проанализировать данные, не высказывая своего мнения, обдумать альтернативные интерпретации и быть готовыми к проверке и пересмотру принятых решений. Тот, кто не стремится к объективности, тот в конечном итоге вступает на путь произвола. В то же время объективность, предполагающая унификацию материала, его обработки и оценки, всегда в определенной мере сужает возможности учеников. Каждый преподаватель русского языка знает, что ему легче сравнивать сочинения своих учеников, если он задает всего лишь одну тему. Ему также известно, что тем самым он ограничивает возможности, по меньшей мере, нескольких учеников. В каждом конкретном случае необходимо знать, что важнее.

Стремление к объективности целесообразно лишь в том случае, если существуют наиболее оптимальные решения или -- по другим критериям -- единственно возможные варианты решения. Практически это те же требования, которые предъявляются к экзаменационным результатам. Если же одна и та же тема предполагает множество различных и одновременно равноценных возможностей своего раскрытия, то в таком случае требовать объективности невозможно.

Если, к примеру, художники различных направлений пишут картину на один и тот же сюжет, если на одну и ту же тему сочиняются романы, драмы или новеллы, то разные лица, привлеченные в качестве экспертов, не смогут прийти к одинаковому заключению.

Измерение (и проверка!) не является в данном случае адекватным средством, ибо при наличии различных, хотя и принципиально равноценных, возможностей раскрыть тему нет условий даже для построения порядковой шкалы, другими словами, нет возможности последовательного распределения признаков в зависимости от степени их выраженности.

Здесь речь идет не об измерении, а об индивидуальной восприятии произведения искусства. Социальный аспект учебной ситуации также важен для значения объективности. Если учитель музыки дает уроки фортепьянной игры трем детям из одной семьи, то ему незачем стремиться к тому, чтобы его оценка успехов учеников совпала с оценками, которые могли бы дать этим детям его коллеги. Он должен поддерживать каждого ребенка в его развитии и поселить во всех детей уверенность в справедливом отношении к каждому из них. Совсем иначе складывается ситуация на обязательных занятиях в учебных классах, где достижение учебных целей связано с оценкой успеваемости. Здесь объективность имеет гораздо большее значение.

Объективность никогда не становилась самоцелью.

Она является только предпосылкой надежности и валидности измерений, но и это уже немало. Необъективное измерение не может быть надежным и валидным. Прочность здания зависит от его фундамента. Тот, кто отказывается от критерия объективности, отказывается и от критериев надежности и валидности. По этой причине должна быть отвергнута точка зрения, которую представляют Улих и Мертенс:

Под объективностью в этом смысле можно понимать стремление абстрагироваться при оценке от всевозможных социальных, личных и эмоциональных факторов, исключить их как «помехи», с тем чтобы прийти к наиболее объективной оценке. Как представляется, такая объективность требуется прежде всего от учителя; но при одном взгляде на то, что происходит в школе или классе, обнаруживается фиктивный характер этой объективности, расплывчатость которой мешает реализовать на практике то, к чему она якобы стремится, а именно справедливо оценить старании и трудности каждого отдельного учащегося. Место фиктивной объективности прежде всего должно занять понимание того, что оценивание не есть изолированный процесс, оно возникает в ходе коммуникативного взаимодействия всего класса как комплексное социальное мнение и продолжает действовать даже тогда, когда преподаватель уже забыл о поста и лен и он им оценке"

Эта точка зрения противоречит концепции объективности в рамках теории измерения. Мы ни в коем случае не преследуем цель проигнорировать включение оценки в комплексную социальную реальность или вовсе абстрагироваться от социальных, личных и эмоциональных факторов. При измерении какого-либо признака требуется всего лишь не допустить бесконтрольного влияния других факторов на результаты измерения.

Так, отдельные признаки должны быть охвачены по возможности изолированно друг от друга: с помощью одного теста изучается когнитивный признак, с помощью другого -- социальный, с помощью анкеты -- эмоциональная установка.

Тому, кто говорит только о комплексности и целостности, остается исключительно диффузная и субъективная позиция. Улих и Мертенс, очевидно, имели в виду объективность интерпретации.

Однако именно педагогическая диагностика должна научить нас тому, что констатация и оценка или измерение и интерпретация должны быть максимально отделены друг от друга, чтобы ни одна констатация не была окрашена субъективной оценкой.

НАДЕЖНОСТЬ

Под надежностью, или релиабильностью, измерения понимается степень надежности, или точности, с какой может быть измерен тот или иной конкретный признак.

Если бы могли измерить тот или иной признак с высокой точностью, то степень выраженности этого признака была бы обозначена на шкале одной-единственной точкой, и никакой другой. Чтобы показать различие между надежным и менее надежным измерением, мы обычно говорим: расстояние равно 4185 мм, или расстояние составляет приблизительно 4 м.

Проверка надежности измерения затрагивает прежде всего вопрос о том, насколько можно доверять результатам, полученным в ходе однократного измерения. В школьной практике оценка была бы надежной, если бы преподаватель через некоторое время оценил ту же самую работу так же, как и в первый раз. То, что в действительности все выглядит иначе, будет показано на примере изучения оценки успеваемости.

Обеспечивая надежность измерения в сфере общественных наук, следует помнить о том, что измерение не может бить надежнее стабильности признака. Если признак очень лабильный, как, например, настроение, то результат измерения не может быть столь же точным, как результат измерения более стабильного признака, скажем знаний орфографий.

Степень надежности измерения определяется с помощью коэффициента надежности, или коэффициента релиабильности.

Коэффициент надежности является корреляционным коэффициентом, «показывающим, в какой мере совпадают результаты измерений, проведенных в -одинаковых условиях одним и тем же лицом, т. е. в какой мере воспроизводимы результаты измерения».

При определении надежности следует исходить из того, что в каждом результате измерения присутствуют «истинная» и «искажающая» части. Предпринимаются попытки оценить соотношение этих частей с помощью различных методов, которые главным образом применяются при конструировании тестов. Чаще всего используются:

-метод повторного тестирования,

-метод деления пополам и

-метод параллельного тестирования.

Метод повторного тестирования позволяет обработать одни и те же задания, выполненные одними и теми же испытуемыми в разное время, и просчитать взаимосвязь результатов, выраженную в коэффициенте надежности. Этот метод редко применяется при измерении успеваемости, так как при повторном тестирования приходится считаться с эффектом тренировки, который оказывается тем сильнее, чем легче для запоминания задания и короче промежуток времени между первой и второй обработкой полученных данных.

Это препятствие можно устранить, прибегнув к методу деления пополам. В этом случае подборка однажды выполненных заданий делится пополам. Все задания с четными номерами и все задания с нечетными номерами обрабатываются отдельно. Подборка заданий может быть разделена надвое и на основании какого-либо другого принципа. Затем просчитывается взаимосвязь полученных таким образом результатов и на основании этого расчета получают сведения о надежности метода измерения.

Для метода параллельного тестирования необходимы два различных набора заданий, которые по своему содержанию напоминают близнецов. Оба параллельных набора заданий можно предложить непосредственно друг за другом или при удобном случае. Эффект запоминания возникнуть не может, так как актуальная постановка заданий в каждом наборе несколько иная. Взаимосвязь обоих результатов выражается с помощью коэффициента надежности.

Очевидно, что коэффициент надежности содержит не только информацию об измеряемой свойстве. Чем больший временной отрезок разделяет измерения, тем сильнее сказывается на результате воздействие всевозможных факторов (иная мотивация, достигнутые за этот период успехи в учебе), которыми не следует обременять -- ввиду его недостаточной надежности -- измерительный инструментарий.

При обычно равном количестве заданий в одинаковом качестве их от метода деления надвое и метода параллельного тестирования можно ожидать самые низкие коэффициенты надежности. От, первого метода при тестировании индивидуальной успеваемости можно было бы ожидать коэффициент надежности чуть выше -- г=0,90, от метода параллельных форм --г= = 0,80. Если мы будем сравнивать только средние величины групп, то надежность измерения может уменьшиться.

Надежность измерения сама по себе значит еще немного, так как она содержит информацию о том, -насколько точно проводится измерение, не сообщая о том, что измеряется. Однако она является предпосылкой валидности, важнейшего критерия качества измерения.

Для учителя коэффициент надежности обладает невысокой. информативностью и ограниченными возможностями использования. Гораздо больше информации для него несет стандартная измерительная ошибка. По Линерту, стандартная ошибка в измерении есть «та величина стандартного отклонения теста, : которая объясняется его ненадежностью».

Стандартная ошибка в измерении содержит информацию о том, между какими точками (процент вероятности составляет чаще всего 68%) будет находиться «истинное» значение успеваемости индивидуума.

Величина отрезка между двумя точками зависит от надежности -- всегда относительной -- инструментария. Стандартная ошибка в измерении вычисляется автором теста с помощью коэффициента надежности и величины стандартного отклонения теста. От величины коэффициента надежности зависит также величина стандартной ошибки в измерении.

Если пользователю теста известно, что стандартная ошибка в измерении составляет ±4, то тогда он знает, что «истинное» значение успеваемости для ученика, набравшего 24 балла, располагается в интервале между 20 и 28 баллами (процент вероятности указывается в приложении к тесту). Если знать измерительные ошибки инструментария, то можно избежать переоценки его надежности и не принимать случайные расхождения результатов при их интерпретации за подлинные различия в успеваемости.

Надежность инструментария зависит--при, прочих равных условиях--от количества заданий. Для неформальных тестов (по результатам анализа заданий) ошибка в измерении может быть вычислена с помощью следующего основного правила:

При количестве заданий менее 24 ошибка составляет ±2 балла.

При количестве заданий между 24 и 47 ошибка составляет ±3 балла.

При количестве заданий между 48 я 89 ошибка составляет ±4 балла.

Учителям положено знать, что измерительная ошибка нашей системы оценок в целом должна составлять ±1 балл, так что колебания между оценками «2» и «4» могут быть вызваны недостаточной надежностью применяемого метода оценивания.

ВАЛИДНОСТЬ

Важнейшим методическим критерием качества того или иного измерения, несомненно, является достоверность, или валидность.

Достоверность, или валидность, метода необходима для того, чтобы определить, действительно ли измеряется то, что требуется измерить, или что-то другое.

Чтобы установить, действительно ли измерили то, что хотели, разумеется, требуется критерий. В зависимости от вида критерия в методике тестирования различают четыре вида валидности:

— валидность содержания,

— валидность соответствия результатов, полученных с помощью различного инструментария,

— валидность прогноза,

— валидность конструкта.

Валидность содержания является достаточно проблематичным критерием. Для того или иного конкретного поведения существует содержательное описание. Разрабатываются определенные задания, выявляющие признаки этого поведения. С помощью оценок экспертов устанавливается, в какой мере задания и обусловленное ими поведение содержательно совпадают с предварительным описанием поведения.

Так как куррикулярная валидность является особым случаем валидности содержания, то на ее примере мы можем более наглядно показать, в чем заключается валидность содержания. Учебный план содержит тематическое описание того материала, который должен быть усвоен в процессе учебы. Эксперты определяют, какие задания подходят для того, чтобы охватить важнейшие аспекты подлежащего усвоению материала. При этом различные эксперты могут прийти к различным выводам. Кроме того, эксперты не могут быть уверены в том, что при выполнении заданий важной роли не играют другие, не учтенные ими факторы. Например, они предложили оформленные в виде текста арифметические задачи для проверки выполнения учебного плана по математике. Однако эксперты не учли, что эти задания предъявляют значительные требования к пониманию прочитанного, так что данный набор заданий проверяет не только понимание сугубо математического содержания, но и в большой мере понимание прочитанного в целом.

Чем неопределеннее сформулированы тематические требования в учебных планах и чем меньше имеется заданий для проверки темы, тем скорее эксперты представят различное понимание того, какие задания лучше всего отвечают задачам учебного плана.

Новые учебные планы призваны уменьшить эти расхождения в интерпретации с помощью точных данных о необходимой учебной деятельности, с помощью описаний содержания, желаемого конечного поведения и условий его проявления, масштаба измерения поведения. Учебные цели, пройдя подобную операционализацию, могут быть преобразованы непосредственно в экзаменационные задания. Более подробно об этом будет рассказано в разделе о критериях тестирования.

Валидность соответствия помогает установить, в какой мере «результаты, полученные посредством использования исследовательского инструментария, соответствуют данным, полученным другими способами.

Вернемся к примеру с математическим тестом: здесь высчитывается соответствие между результатами тестирования значений по математике и той отметкой, с помощью которой учитель только что выразил свое мнение об успеваемости по математике того или иного учащегося.

Естественно, речь должна идти о всеми признанном критерии, с помощью которого дается оценка новому исследовательскому инструментарию. Однако здесь сразу же возникают трудности. Очень часто новый инструментарий разрабатывается именно потому, что иные способы не могут обеспечить измерение предмета исследования, удовлетворяющее методическим требованиям. В таком случае нельзя также признать удовлет-ворительным решение определять валидность нового метода исключительно по тому, насколько он соответствует методу, применявшемуся до сих пор и не отвечавшему необходимым методическим требованиям.

Валидность прогноза позволяет вычислить взаимосвязь между данными, полученными в ходе ранее проведенного исследования, и поведением, наблюдаемым позднее.

Валидность конструкта в некоторых отношениях отличается от только что названных валидности прогноза и валидности соответствия, которые объединяют также под общим названием эмпирическая валидность. Название «валидность конструкта» указывает на то, что здесь речь идет о теоретической конструкции, о конструкте, посредством которого результаты исследования могут быть проверены на валидность. Валидность конструкта, по утверждению Линерта, «имеет скорее теоретическую, чем прагматическую, направленность, Поэтому ее значение заключается не в непосредственной практико-диагностической пригодности к использованию, а в теоретическом объяснении того, что измеряет соответствующий тест».

Конструкты нельзя наблюдать непосредственно в отличие, скажем, от темпа письма. Конструкты -- это производные, недоступные для непосредственного наблюдения, латентные, комплексные признаки, которые можно рассматривать как относительно долговременные, оказывающие влияние на наше поведение. Типичными конструктами являются, например, умственное развитие, интровертность, чувство страха перед экзаменами. К подобным конструктам приходят посредством теоретических допущений латентных признаков, их воздействий и разнообразных отношений к другим конструктам, а также влияния последних на наблюдаемое поведение. С помощью анкеты мы можем, к примеру, измерить чувство страха перед экзаменами. Степень валидности этого измерения можно определить лишь в том случае, если проверить возможность подтверждения позитивных или негативных реакций, предсказываемых теоретически. Падает ли под влиянием временного фактора успеваемость учащегося, испытывающего чувство страха перед экзаменами, особенно сильно, отличается ли в подобных ситуациях реакция лиц с сильно развитым интеллектом от реакции интеллектуально менее развитых людей, можно ли подтвердить появление сопутствующих явлений (появление пота, дрожи) и т. д.

Для валидизации конструкта разработаны комплексные статистические методы, например анализ факторов второго порядка и канонический анализ.

Инструментарий обладает конструктивной валидностью в том случае, если найденные отношения в значительной мере соответствуют теоретической модели.

Таким образом, становится ясно, что ни один элемент измерительного инструментария не является валидным вообще, он может быть валидным лишь в определенном смысле. Математический тест не дает сведений о развитии интеллекта. Математический тест, предназначенный для второго полугодия 6-го класса, не является валидным для другой стадии обучения. Если тест ориентирован на содержание конкретного учебника, то его валидность для учащихся, работавших по иным учебникам, еще требуется доказать.

По вопросу о корреляционных отношениях между критериями качества Линерт пишет следующее: «Релиабильность теста не может быть выше его объективности; далее, валидность теста не может быть выше его релиабильности». Важнейший критерий качества измерения -- валидность основывается на критериях объективности и надежности. Несерьезно выступать против критерия объективности, не говоря ничего о том, каким еще образом можно добиться валидных измерений.

ДРУГИЕ КРИТЕРИИ КАЧЕСТВА ИЗМЕРЕНИЯ

Наряду с тремя важнейшими критериями качества измерения в литературе называются и другие критерии. Линерт различает, например, следующие:

а) нормирование теста, позволяющее включать результаты индивидуального тестирования в систему соотносительных понятий.

б) сопоставимость теста, возможная благодаря параллельным формам или благодаря тестам с одинаковой валидностью. В таком случае тест можно сравнить с его «близнецом» или «двойняшкой». К тому же при групповых исследованиях в школьных классах параллельные формы затрудняют списывание;

в) экономичность теста, имеющая место в том случае, если, для проведения тестирования и обработки данных не требуется больших затрат времени и средств, если тест несложен и может использоваться в группах;

г) полезность теста, являющаяся максимальной, если существует большая практическая потребность в исследовании данного поведения и если для этой цели еще не разработано или разработано слишком мало методов. В педагогике в данном случае следовало бы проверить педагогическую значимость целей исследования. Чем значительнее исследуемое поведение, тем более, высокие требования следовало бы предъявлять к методу".

Кроме того, в педагогике необходимо учитывать в качестве важного дополнительного критерия качества измерения соответствие инструментария педагогическим задачам. Если мы хотим научиться понимать взаимосвязи, то мы не имеем права довольствоваться проверкой изолированных фактов. К этим соображениям относится и вопрос о том, какое воздействие на учащегося оказывают определенные формы проверки. Об этом мы знаем еще очень мало.

РЕЗЮМЕ

Важнейшими методическими критериями, необходимыми для проведения измерений в сфере общественных наук, являются объективность, надежность и валидность.

Объективность применительно к методике измерения означает устранение воздействия субъективных факторов со стороны лиц, проводящих исследование. Результаты учебного процесса должны изучаться различными исследователями, проводящими измерения в максимально унифицированных условиях (объективность проведения измерений). Разные лица, обрабатывающие полученные данные, при установленном тождестве фактического материала должны прийти к одинаковым результатам (объективность обработки данных), а интерпретация результатов должна быть свободна от посторонних субъективных воздействий (объективность интерпретации).

Метод исследования считается надежным или релиабильным в том случае, если с его помощью точно измеряется тот признак, который подлежит измерению, т. е, если повторное измерение того же самого признака дает те же результаты. Только объективные методы могут быть надежными и приводить к аналогичным результатам (при известном допуске) при повторном измерении (если удается исключить эффект тренировки).

Для практика важнейшим следствием определения надежности является возможность вычислить ошибку в измерении. Измерительная ошибка содержит информацию о том, в каких пределах с определенной вероятностью находится «истинное» значение успеваемости учащегося. Знание измерительной ошибки не позволит нам интерпретировать случайные различия между несколькими измерениями в качестве подлинных изменений в поведении и не приведет к ложным выводам.

Важнейшим методическим критерием является достоверность, или валидность, метода. Инструментарий считается валидным в том случае, если с его помощью измеряется то, что должно измеряться, а не что-то иное.

Применительно к школьным условиям особое значение приобретают валидность содержания (куррикулярная валидность), валидность соответствия и валидность прогноза, в то время как валидность конструкта важна прежде всего для психологических методов.

Ни одному методу не свойственна валидность вообще, но всегда только специфическая и эмпирически доказанная валидность.

НОРМЫ

В педагогической диагностике мы занимаемся сбором информации, которая представляется нам важной для оценки того или иного учащегося. Предположим, что собранная нами информация содержит следующие данные: количество ошибок, допущенных в диктанте, количество правильных решений из работы по математике, количество спонтанных ответов, полученных в течение трех занятии, количество верно выполненных заданий из теста, измеряющего интеллект. Эти сведения, однако, не слишком информативны. Нам не хватает соотносительных моментов, критериев, норм. Даже если нам известно, что кто-то допустил в диктанте 12 ошибок, то эта информация может интерпретироваться лишь в том случае, если мы знаем уровень сложности диктанта. Кроме того, мы должны были бы знать, как справились с диктантом другие учащиеся, находившиеся в аналогичных условиях, или какое количество ошибок считается допустимым для того, чтобы признать учебную цель достигнутой. Иными словами, требуется провести сопоставительный анализ.

Результат индивидуальной успеваемости учащегося мы можем сравнить:

— с результатами других учащихся = социальная соотносительная норма

— с прежними результатами того же учащегося = индивидуальная соотносительная норма

— с поставленными учебными целями (критериями) = предметная соотносительная норма

Несмотря на то, что в данном случае имеется в виду не критерий, а направление, в котором проводится сопоставление, его цель, в литературе укоренилось выражение «соотносительная норма«.

Ни в одном из названных случаев количество ошибок в диктанте не будет достаточным для проведения интерпретации. Даже при сопоставлении индивидуальных результатов нам не поможет знание того, что в предшествующем диктанте учащийся допустил 16 ошибок, а в последнем -- 12. До тех пор пока мы ничего не знаем о степени трудности диктанта, мы не можем сделать выводов о возможном улучшении ила ухудшении результатов. Для проведения социального и индивидуального сравнения лучшей опорой при интерпретации являются сопоставительные нормы.

Для проведения предметного сравнения желательно также с помощью сопоставления данных получить информацию о степени трудности отдельных слов и лишь затем определить минимум, необходимый для достижения учебной цели, предположим, 10 ошибок в диктанте. Обычно нормы разрабатывались для, проведения главным образом социальных и индивидуальных сравнений. Они должны выполнять следующие задачи:

1. Корректно и по возможности наглядно отмечать с помощью цифр индивидуальные результаты.

2. Обеспечить сопоставимость полученных данных с результатами других индивидуумов, если подобное сопоставление представляется необходимым и корректным.

3. Облегчить сравнение с результатами того же самого индивидуума, достигнутыми им в другое время.

Сведения о количестве ошибок, отметки на шкалах, данные о частотности того или иного показателя и пр. сами по себе не в состоянии выполнить эти задачи. Они должны быть соотнесены с другими данными. Можно нормировать классные работы, наблюдения, анкеты и т. д. В этой книге понятие нормы будет объясняться на примере норм для тестов, т. е. иллюстративный материал заимствуется из той области, где понятие нормы используется особенно часто.

НАБЛЮДЕНИЕ ЗА ПОВЕДЕНИЕМ. ЗНАЧЕНИЕ НАБЛЮДЕНИЯ И ЕГО ПРИЗНАКИ

«Наблюдение -- основной метод общественных наук, занимающихся эмпирическими исследованиями, и педагогики». Наблюдение за поведением является основным методом и педагогической диагностики. Педагоги могут пользоваться этим методом практически постоянно, в то время как все остальные методы находят, скорее, спорадическое применение. Наблюдение дает информацию, которую невозможно получить другим способом, например, из-за того, что:

— респонденты иногда отказываются давать информацию или сообщают -- то ли умышленно, то ли неосознанно -- ложные сведения;

— при опросе внимание респондента с самого начала обращается на определенную установку, которую он в своих ответах уже не может не учитывать;

— часто требуется получить информацию о третьем лице, что бывает подчас и затруднительно, и бестактно.

В школе и аналогичных общественных институтах педагог, напротив, имеет возможность наблюдать за всем тем, что происходит перед его глазами, а это очень многое. Иногда он видит так много, что может просмотреть самое главное, ибо «смотреть» еще не значит «наблюдать».

Тот, кто во время перемены идет по школьному двору, не имея определенных целей наблюдения, «видит» множество лиц и является свидетелем различных событий. Однако если по окончании перемены ему задать конкретные вопросы, скажем, о частотности агрессивных действий и их тяжести, о речевых контактах между девочками и мальчиками 5-го и 6-го классов, о неформальных игровых группах, то он растеряется от обилия вопросов. Он видел н воспринял многое, однако он не «вел наблюдение» с определенной целевой установкой. Ненаправленное зрительное восприятие называют также «наивным наблюдением», в то время как о «систематическом, или научном, наблюдении» говорят лишь в том случае, если наблюдение сопровождается постановкой определенных вопросов или целей.

Кёниг предлагает следующее определение: «Связь с миром устанавливают органы чувств, и с их помощью мы приобретаем необходимые знания. В этом самом общем смысле наблюдение есть один из способов познания мира, причем путь от непосредственного (наивного) наблюдения к научному наблюдению лежит через последовательное обострение нашего восприятия мира посредством многочисленных способов наблюдения, которые, естественно, меняются в соответствии с трактуемыми нами размерами реального мира».

По Аттесландеру, наблюдение может быть признано научным методом лишь в том случае, если оно:

«1) служит конкретной научной цели, т. е. проводится в рамках научной теории и осуществляется целенаправленно и системно;

2) систематически планируется и не отдается на волю случая;

3) сопровождается систематическим ведением записей;

4) может быть принципиально подвергнуто повторным проверкам и контролю на предмет валидности и точности" (АНез-1алаег. 1969, 126).

В первом пункте вместо «научная цель» поставим «диагностическая цель», признав все эти требования актуальными н для педагогической диагностики, несмотря на трудность их реализации.

К наблюдению должно предъявлять высокие требования еще и потому, что только с его помощью могут быть решены очень ответственные педагогические задачи аттестации учащихся. В своих отчетах, отзывах и т. п. учитель обязан не только давать оценку поведению учащегося, но и делать выводы о характерных особенностях этого поведения, а также прогнозировать его будущее развитие. Тот, кто ставит воспитательные задачи в центр внимания, должен оценивать также и достижение социально-эмоциональных учебных целей. Здесь диагностические средства могут привлекаться лишь частично. Чаще всего учителя и воспитатели вынуждены обращаться к своим наблюдениям.

Владеют ли они методикой наблюдения? Знают ли, как легко исказить результаты наблюдений и из-за чего это может произойти?

ЧТО СТАВИТ ПОД УГРОЗУ ВАЛИДНОСТЬ РЕЗУЛЬТАТОВ НАБЛЮДЕНИЯ?

Требуя научных методов наблюдения, мы пытаемся уменьшить ту опасность, которой постоянно подвергаются наивное наблюдение и восприятие. Некоторые тенденции, ведущие к фальсификации результатов наблюдения, должны быть здесь названы.

Восприятие никогда не является процессом, в ходе которого мы нейтрально воспринимаем что-то само по себе. Наше восприятие всегда окрашено различными физическими, психически, ми и социальными факторами. Мы приспосабливаем раздражители к нашим потребностям и нашему опыту. Наше восприятие есть компромисс между объектом восприятия и тем, чего мы ждали, исходя из наших личных, групповых и ролевых установок. Если, к примеру, боязливый и суеверный человек в сумерках на опушке леса примет пелену тумана за призрак, то здравомыслящий любитель птиц в аналогичной ситуации не обратит на поднимающийся туман никакого внимания, вслушиваясь в звуки, которые издают ночные птицы.

В более системных описаниях говорится о первичном сочетании, когда устанавливается связь между различными фрагментами действительности и нашей физической системой (органами чувств, центрами и аккумуляторами аппарата восприятия), о вторичном сочетании, когда устанавливается связь между упомянутой физической системой и нашей психической системой с ее ощущениями и восприятиями и происходит процесс психоселекции, и, наконец, о третичном сочетании, когда устанавливается связь между только что отобранными ощущениями и третичными знаками: понятиями, кодами, числами, символами и т. д. Так как при этом вновь производится отбор, то легко представить, какие индивидуальные различия могут появиться на пути от фрагмента реальной действительности до его обозначения.

Если взглянуть на этот процесс с несколько иных позиций, то он будет выглядеть следующим образом.

Мы структурируем наше восприятие главным образом по четырем направлениям: селекция, организация, акцентуация и фиксация.

Селекция имеет место, если из множества имеющихся раздражителей мы выбираем те, которые отвечают нашим ожиданиям и нашим потребностям.

В процессе организации мы изменяем структуру раздражителей таким образом, чтобы они соответствовали определенным теориям личности (или гипотезам и представлениям) или нашим стереотипам.

В ходе акцентуации мы придаем особое значение одним раздражителям, одновременно подавляя другие.

Фиксация представляет собой уступку тенденции, заключающейся в том, что мы сопротивляемся изменениям и переносим однажды приобретенные впечатления на новые раздражители, даже если они не соответствуют этим раздражителям.

Эти четыре фактора взаимодействуют в каждом процессе восприятия и оценки, в том числе и в процессе школьной аттестации. При этом данное взаимодействие приобретает совершенно личную окраску в зависимости от нашего опыта и занимаемой позиции. Одну и ту же ситуацию один воспитатель воспримет как свой личный успех, потому что сейчас после многих педагогических неудач он замечает в поведении подростков первые (по его мнению) положительные признаки. Это происходит потому, что, следуя своей теории воспитательного воздействия, он относится к этим признакам серьезнее, чем следует, и тем самым неосознанно реализует личную потребность в успехе. Другой воспитатель со своим опытом истолкует эти признаки, скорее, как сигналы всевозрастающей дистанции между ним и подростками и как доказательство строптивости подростков, так непохожих на тех, с которыми он работал до сих пор,

Поскольку наш личный опыт, наши установки и желания влияют на наше наивное наблюдение, результаты наших наблюдений содержат информацию не только об объекте наблюдения, но и о нас самих. К этой проблеме обращается психодиагностика, когда она с целью получить данные для оценки нашей личности требует от нас результатов наблюдения, полученных с помощью так называемых проективных методов и специальных материалов, предполагающих многообразие трактовок.

Здесь необходимо вернуться к аспектам диагностической деятельности. Провести корректно наблюдения мы можем лишь и том случае, если объект наблюдения вписывается в наш опыт. Если мы наблюдаем за людьми с совершенно иным социальным фоном, то нельзя исключить возможность ложной интерпретации их поведения. Мы можем принять за агрессивность то, что на самом деле является знаком дружеского уважения. Возможно, мы примем за лицемерие то, что на самом «теле является обычной данью вежливости. Это условие распространяется на возрастные, религиозные группы, на всевозможные группировки с характерными нормами поведения.

Ошибки в референции возникают в том случае, если в процессе наблюдения били использованы для сравнения неподходящие образцы Сюда относятся ошибки в выборе масштаба, когда кто-то даст преимущественно чересчур строгую или чересчур мягкую оценку, тем самым показывая, что он пользуется масштабом, который не подходит тем, кому он должен давать оценку и кто благодаря его опыту и установкам мог бы, очевидно, получить о себе информацию. Сюда можно отнести также возврат к наблюдениям и оценкам нейтрального характера, к расплывчатым высказываниям типа «ни--ни». Ошибки в референции возникают также тогда, когда наш опыт не включает нормы повеления тех людей, которых мы должны наблюдать. В таком случае мы считаем невежливым то, что для этих людей является обычным проявлением почтительной сдержанности, и принимаем за личную симпатию то, что на самом деле считается обычной формой гостеприимства. Много похожих случаев возникает тогда, когда встречаются люди разных культур.

Ошибки в установлении связей появляются тогда, когда мы устанавливаем связь между признаками, не предполагающими этой связи. Часто в литературе обсуждается так называемый эффект «ореола», «тенденция, при которой оценка характерной особенности какой-то личности не свободна от воздействия другой характерной черты или от общего впечатления, производимого этой личностью». В повседневной жизни мы также склонны делать выводы о характерных особенностях человека, исходя из его манеры одеваться. Какие признаки мы при этом связываем, зависит от наших личных познаний в характерологии, от наших имплицитных теорий личности. Учителя, например, склонны связывать плохую успеваемость с леностью и глупостью.

ПРИЗНАКИ НАУЧНОГО НАБЛЮДЕНИЯ И ЕГО ВИДЫ

Научное наблюдение отличается от наивного включением теоретической базы и определенных методических правил.

Принцип целенаправленности требует, чтобы наблюдение служило определенной цели и не шло на поводу, подобно наивному наблюдению, у меняющихся раздражителей. Тот, кто собирается провозить научное наблюдение, должен вначале выдвинуть несколько гипотез, которые он будет проверять в процессе наблюдения. Если, к примеру, выдвинута гипотеза, согласно которой учащиеся, привыкшие к фронтальным занятиям, с трудом привыкают к групповым занятиям в форме деловых контактов «ученик -- ученик», то в таком случае при наблюдении необходимо различать, по меньшей мере, деловые и неделовые контакты, контакты между учениками, а также контакты между учениками и учителем. На предварительном этапе следовало бы выяснить, достаточно ли этих категорий и к какой из них относятся формы поведения, действительно имевшие место на занятиях. Чем глубже наши теоретические знания о предмете исследования, тем целенаправленнее нужно вести наблюдение и тем точнее можно классифицировать надлежащий наблюдению фактический материал. От этого принципа нас не освобождают даже такие современные технические средства, как магнитофон и видеомагнитофон. Они только фиксируют события, и то не без потерь, и обрабатывать, а интерпретировать данные должны люди.

Принцип константности требует, чтобы мы не довольствовались поверхностными впечатлениями, как при беглом осмотре, и не переоценивали значения случайных, кратковременных явлений. С этой целью вводятся следующие методические гарантии: тот, кто проводит наблюдение, знает, что он должен наблюдать. Он повторяет наблюдение в сопоставимых ситуациях, или несколько наблюдателей следят за одной и той же ситуацией. Если одну и ту же ситуацию наблюдают несколько человек (непосредственно или с помощью видео), то можно высчитать, насколько совпадают между собой их наблюдения. Если наблюдения повторяются достаточно часто, то можно сделать выводы о константности феноменов. О методах, с помощью которых проводятся расчеты, будет сказано позднее; Здесь же необходимо подчеркнуть, что принцип константности должен оцениваться иначе, если наблюдению подлежат ситуативные воздействия на поведение.

Принцип контроля, выходящий за рамки повторения наблюдений и совпадений наблюдений нескольких наблюдателей, требует, чтобы выводы, которые мы делаем на основании наших наблюдений над определенными группами лиц, проверялись в ходе контрольных наблюдений в других группах. Это необходимо для того, чтобы установить, не являются ли полученные результаты специфическими лишь для одной этой группы испытуемых. Тот, кто наблюдал технику обратной связи на занятиях в гимназии, должен провести наблюдения за соответствующим поведением и в других школах, прежде чем делать выводы, позволяющие считать средства обратной связи типичными для данной гимназии.

Научное наблюдение требует выяснения следующих моментов:

1. На какой вопрос должно дать ответ наблюдение?

2. В каких условиях должно проводиться наблюдение?

3. Описано ли (распределено ли по категориям) подлежащее наблюдению поведение таким образом, чтобы с помощью этих категорий можно было дать ответ на поставленный вопрос?

(Проблема валидности.)

4. Соответствует ли описание (категоризация) фактическому поведению? Можно ли работать с данными категориями? (Проблема практикабельности.)

5. Существует ли единство между различными наблюдающими при записи одного и того же поведения в соответствии с данными категориями? (Проблема объективности)

6. Пользуется ли один и тот же наблюдатель при повторном наблюдении теми же категориями? (Проблема надежности). Строго говоря, это можно проверить только с помощью видеозаписей. В противном случае можно рассчитывать на сопоставимую маркировку сопоставимого поведения.)

7. Возможно ли повторное наблюдение данного поведения в сопоставимых ситуациях? (Константность поведения.)

Научное наблюдение имеет несколько подформ, которым мы дадим краткую характеристику, противопоставляя их друг другу:

— нестандартизованное и стандартизованное наблюдение,

— включенное и невключенное наблюдение, а также

— анекдотическое и систематическое наблюдение.

Нестандартизованное наблюдение нельзя смешивать с наивным наблюдением. Постановка вопроса при нестандартнзованном наблюдении, правда, достаточно широка, но она присутствует. Например, при наблюдении за одной терапевтической группой не требуется наблюдать за вербальными взаимодействиями и их участниками, но вхождение в ситуацию наблюдения начинается с вопросов: какие взаимодействия должны наблюдаться и с какой частотностью они возникают? Кроме того, ведущий наблюдение следует всем методическим правилам, призванным исключить воздействие заблуждений и ложных установок, и тщательно ведет протокол. К нестандартизованному наблюдению прибегают чаще всего на начальном этапе исследовательской работы, когда необходимо сориентироваться в том, с какими феноменами предстоит иметь дело, Только после этого вводятся детально разработанные схемы наблюдения, устанавливающие подлежащий наблюдению материал, образцы поведения, масштабы действий, а также способ регистрации в форме стандартизованного наблюдения. Стандартизованное наблюдение облегчает сопоставимость и квантификацию информации, но, конечно, сужает поле наблюдения. В таком случае при наблюдении за игрой в детском саду уже не следят за тем, возникает ли игровой контакт между детьми, каким образом и как часто это происходит, а обращают внимание лишь на то, как часто попытки установить контакт во время игры исходят от детей, не пользующихся особой любовью в группе. Учителя и воспитатели могут пользоваться стандартизованной формой наблюдения почти исключительно в тех случаях, когда они посещают уроки коллег или просматривают видеозапись собственного занятия. Впрочем, собственная педагогическая деятельность не оставляет им времени для детальной разработки схемы действий. Они будут довольствоваться нестандартизованной формой наблюдения.

ПоказатьСвернуть
Заполнить форму текущей работой