Проблемы валидности психодиагностических методик. Виды валидности. Эмпирические способы определения валидности.

Валидность и надежность измерения

Проблема достоверности полученных эмпирических данных и выводов, истинности теории остро стоит в любой отрасли науки. Есть она и в социологии. Как отличить научную теорию от вымысла? Как построить программу исследования, чтобы его результаты можно было использовать в науке?

Самый эффективный инструмент — установить валидность и надежность своего измерительного инструмента и программы исследования в целом.

В социологии валидность понимают довольно широко — как достоверность, истинность, адекватность, правдоподобность, устойчивость данных измерения, но чаще всего — как обоснованность. К примеру, доказать валидность теории значит обосновать ее правдоподобность. Измерение (анкетный вопрос, серия вопросов, тест) считается валидным, если с его помощью было зафиксировано то понятие или свойство, которое запланировано к измерению^[1].

Валидность. Мы нс так уж часто имеем возможность непосредственно измерить понятия, используемые в социологических теориях. Такие понятия, как власть, демократия и представительство, не так просто представить количественно, как понятия типа длины и веса. Нам приходится пользоваться показателями, лишь косвенно соответствующими понятиям, которые они представляют. А в таком случае всегда существует опасность, что выбранные показатели будут неадекватно отражать понятия, которые мы хотим с их помощью измерять. Для обозначения степени соответствия измерений понятиям, кото-

рые эти измерения должны отражать, используется термин валидность. Интересоваться валидностью измерения — то же самое, что интересоваться, действительно ли с помощью данного измерения мы измеряем то, что предполагали. Обеспечение валидности часто считается основной проблемой, связанной с измерением в социальных науках.

Чтобы быть валидным, измерение должно быть исчерпывающим и полным. Если, например, мы сравниваем качество коммунальных служб в разных городах, у нас может возникнуть искушение считать показателем качества системы образования количество преподавателей в школах. Это — неуместное измерение, поскольку количество работающих в системе школьного образования в значительной степени определяется количеством учащихся и размерами города и может иметь мало общего с качеством образования. Если за показатель качества системы образования принять отношение количества учащихся к количеству учителей, мы получим более уместное измерение, так что различия, вызванные размерами города, уменьшатся или вообще исчезнут. Тем не менее измерение все еще останется недостаточным. Образование — это не только преподаватели. Образование — это также школьные задания, фильмы, книги, учебные пособия и множество других факторов. Рассмотрение каждого из этих факторов в отрыве от остальных может создать неверное впечатление о качестве системы образования. Система школьного образования может иметь в высшей степени благоприятное соотношение учащихся и преподавателей, однако недостаточное количество средств обучения и учебных материалов. Было бы ошибкой утверждать, что эта система школьного образования не отличается от системы с таким же соотношением учащихся и преподавателей и прекрасными средствами обучения и учебными материалами. Если мы стремимся к валидности, мы должны попытаться выбрать такие измерения, которые были бы и уместными, и полными.

Таким образом, получение уместных и относительно полных оиерационализаций зависит как от хорошего знания объекта нашего исследования, так и от осуществления тщательного логического анализа альтернативных оиерационализаций. Однако проверить валидность наших измерений для определения того, хороши ли они, можно лишь после того, как собраны данные. Процесс оценки валидности измерений называется валидизацией

Расширительная трактовка валидности в конечном счете ведет к отождествлению ее с надежностью. Правы те авторы, которые ограничивают сферу валидности теорией и методологией, а надежность — инструментарием и методикой. Они могут давать, казалось бы, различные определения валидности, например:

• степень соответствия собранной информации той, которую планировали получить;
• соответствие цели и средств в социологическом измерении;
• точность при измерении именно того, что предназначено быть измеренным.

Как быть Леди: Русская хандра. Исторические параллели (Валерий Ветер) / Проза.ру

Если вдуматься, то все они говорят об одном и том же — насколько хорошо теория воплощена в инструментарий (систему индикаторов, показателей, переменных, индексов и измерительных шкал). Валидность имеет множество видов и разновидностей, в том числе внешнюю и внутреннюю, конструктивную (конструктную) и операциональную, конвергентную и дискриминантную, коммуникативную, прагматическую, прогностическую, очевидную, критериальную, факторную, содержательную и т.д.^[2]^[3]А постмодернистские авторы обсуждают принципиально новые понятия и принципы обоснования знания: ироническую (Ж. Бодрийар), неопраг- матическую (Ж.-Ф. Лиотар), ризоматическую (Ж. Деррида) валидизацию.

Социологический практикум

Познакомьтесь с дополнительной научной информацией на бумажных или электронных носителях и составьте таблицу видов валидности. В первом столбце разместите название видов валидности (внешняя, конструктная и т.д.), во втором — свойства и определение, в третьем — средства валидизации для каждого вида.

В зарубежной литературе разброс мнений столь же велик, как и в отечественной. В «Оксфордском словаре социологии» валидность трактуется как такое свойство, которое отражает истинную природу социологических характеристик. Измерение (анкетный вопрос, серия вопросов, тест) считается валидным, если с его помощью было зафиксировано то понятие или свойство, которое запланировано к измерению^[4]. Дж. Мангейм и Р. Рич относят валидность не к измерению и не к устойчивости полученных знаний, а к операционализации, определяя ее «как степень, в которой различия оценок измерения отражают только различия в распределении значений переменной, которую мы собираемся измерять»^[5]. Один из ведущих сегодня специалистов в этой области У. Трочим в своем курсе «Исследовательские методы: основы знаний» определяет валидность как наилучшее приближение какого-либо суждения, вывода, пропозиции^[6]. В онлайновом «Учебнике по математической статистике» Д. Гарсон признает, что за рубежом существует превеликое множество названий и характеристик, под которыми выступает одна из важнейших категорий эмпирической социологии — валидность. Исследователи не достигли единодушия в ее определении, а также в классификации ее типов и видов. Часто они дают пересекающиеся либо противоречащие друг другу формулировки. Однако суть дела заключается в том, что валидность касается: а) логической правильности выводов; б) отсутствия ошибок при измерении^[7].

Валидность — это доказательство того, что придуманной вами теоретической схеме действительно что-то соответствует в реальности. Только она выдает ученому сертификат качества.

Мы остановимся на том, что будем считать валидностью меру соответствия теории (как системы логически связанных между собой понятий, переведенных в переменные) эмпирическим данным, т.е. возможность делать разумно точные предсказания на основании теории, степень соответствия между теоретическими предсказаниями (выдвигаемыми в теории гипотезами) и результатами измерения. Валидность, стало быть, означает отсутствие теоретических ошибок, которые могут возникнуть в связи с методологическими и методическими просчетами ученого.

Таким образом, сфера действия валидности — между теорией и инструментом, сфера действия надежности — между инструментом и реальностью (рис. 4.2).

Область существования валидности и надежности

Рис. 4.2.Область существования валидности и надежности

Такова самая общая, а потому и весьма приблизительная, схема проверки качества научного исследования и измерения. В данном случае исследование и измерение выступают как равнообъемные понятия, поскольку измерение закладывается в теории. Если здесь допущены ошибки, то затем от одной стадии процесса исследования к каждой последующей — они будут только множиться.

В социологии под валидизацией следует понимать весь комплекс профилактических мер, позволяющих оздоровить как теоретическую, так и практическую часть программы исследования^[8].

Как быть Леди: Что такое саморегуляция? — Блог Викиум

Средства валидизации включают:

а) неформализованные (от простых приемов внимательно просмотреть список альтернатив в анкете до более сложных процедур поэтапного теоретического анализа);
б) формализованные, куда относят методы и процедуры математической статистики (вычисление оценок, построение доверительных интервалов, проверка статистических гипотез, оценка отношений между переменными, корреляционный анализ, регрессионный анализ, дисперсный анализ, факторный анализ, структурный анализ и др.).

Эти и другие средства являются инструментами в доказательстве различных сторон валидности^[9].

Иными словами, в узком смысле валидность касается измерения, шкал, анкетных вопросов, а в широком — построения самой теории.

В широком смысле валидность возникает на стадии обоснования теоретической модели предмета исследования, когда не заходит речь ни об опе- рационализации, ни об измерении. В широком понимании валидность описывает правильность логического построения теории, продуманность ее понятийного каркаса, отсутствие логических ошибок.

Итак, два наиважнейших момента определяют высокое качество социологического (да и не только социологического) исследования:

1) то, насколько адекватно теория воплотилась в инструментарии (валидность);
2) то, насколько адекватно инструментарий измеряет реальность (надежность).

Надежность. Когда мы говорим о валидности измерения, нас интересует, насколько точно значения, получаемые с помощью этого измерения, соответствуют истинным значениям измеряемой переменной. Когда мы говорим о надежности измерения, нас интересует устойчивость получаемых с его помощью значений. Можем ли мы, применяя измерение несколько раз, получить для любого данного объекта одно и то же значение или же в результате разных подходов одним и тем же объектам приписываются разные значения? Если при неоднократном применении некоторого измерения один и тот же объект не получает одного и того же значения, это измерение является ненадежнымпоказателем соответствующего понятия. Чтобы гарантировать надежность линеек, их изготавливают из нерастяжимого материала. Если бы линейки изготовляли из растяжимых материалов, они вполне могли бы показывать разную длину одного и того же объекта (даже в том случае, если его длина на самом деле не изменилась) просто потому, что линейка растягивается и сжимается.

В социальных науках имеется три типа методов установления надежности измерений. Первый — это метод неоднократного тестирования.В этом случае одно и то же измерение снова и снова применяется в отношении одного и того же набора объектов. Второй — метод альтернативной формы.В соответствии с этим методом в один и тот же момент разные формы измерения применяются к одной и той же группе объектов, либо одно и то же измерение применяется к разным группам объектов. Третий — метод подвыборки.Он заключается в том, что, сформировав выборку из объектов, мы делим ее на несколько подвыборок таким образом, чтобы все они были похожи друг на друга^[10].

Надежность измерения — она же воспроизводимость и устойчивость. По существу, это разные стороны одного и того же явления. Все они касаются результатов исследования (измерения), их устойчивости, надежности, воспроизводимости, а потому в методической литературе чаще всего употребляются практически в одном и том же смысле.

Надежность измерения — воспроизводимость результатов измерения в аналогичных условиях, количественно выражаемая с помощью корреляции результатов начальных и повторных измерений. Зависит от объективности экспериментатора, надежности измерительной аппаратуры и отсутствия неконтролируемой вариабельности исследуемого свойства. Иначе говоря, характеризует степень совпадения результатов измерения при повторных применениях измерительной процедуры и описывается величиной случайной ошибки. Она определяется постоянством подхода респондента к ответам на одинаковые или подобные вопросы.

Как быть Леди: Патриархальная и матриархальная семья - ОСНОВЫ ПСИХОЛОГИИ СЕМЬИ И СЕМЕЙНОГО КОНСУЛЬТИРОВАНИЯ

Надежность шкалы — ее устойчивость по отношению к измерению характеристик объекта исследования во времени. Устойчивость проверяется на одной и той же выборке, но в разное время. Надежностью именуется устойчивость шкалы или теста по отношению к погрешностям измерения.

Надежность свидетельствует о том, что полученной социологом информации можно доверять. Доверие возникает в том случае, когда при многократном (повторном) измерении получают одинаковые результаты.

Проверка устойчивости и обоснованности шкалы проводится двумя способами: а) повторным исследованием через определенный промежуток времени на одной и той же выборке и б) «расщеплением» содержания анкеты или теста на две части с параллельной их проверкой в одной группе^[11]. Приемы проверки надежности тестов — повторное тестирование, параллельное тестирование, раздельное коррелирование (внутренняя корреляция высказываний), дисперсионный анализ, факторный анализ.

Шкалирование и качество конструирования шкал определяется соблюдением ряда требований и правил.

1. Полнота охвата (каждому измеряемому объекту должно найтись место на шкале).
2. Непротиворечивость (один и тот же объект на одной и той же шкале не может иметь более одного места).
3. Единое основание классификации (шкала должна быть одномерной).
4. Равноинтервальность (расстояние от одной позиции до другой должно быть примерно одинаковым).

При конструировании шкал в прикладной социологии соблюдаются еще такие требования, как точность, чувствительность, полнота, правильность.

Точность шкалы — характеристика результата, которая зависит от того, насколько полученные в исследования величины совпадают с истинными значениями. Точность шкалы — уровень чувствительности (дробности шкалы, которая дает устойчивое измерение без больших неточностей).

Полнота шкалы измерения — это ее способность выявить отношение респондентов к изучаемому явлению с той или иной степенью дифференциации. Число ее позиций определяется самим исследователем — чем больше их, тем шкала чувствительнее. Полнота шкалы показывает то, насколько количество вариантов ответа учитывает все значения индикаторов.

Чувствительность шкалы — способность выявлять отношение респондента к изучаемому явлению с той или иной степенью дифференциации.

Полнота и чувствительность часто употребляются как синонимы.

Правильность — отсутствие систематических ошибок, связанных с процедурой и инструментом исследования.

Эскалация ошибок. В ходе проведения электоральных исследований возможен целый ряд намеренных и ненамеренных нарушений.

Многочисленные нарушения связаны с вопросником. Как основной инструмент для получения информации, он должен быть четким и лаконичным. Все вопросы должны быть понятны людям и заданы по всем методическим правилам, с учетом адекватности формулировки и строгого выбора порядка постановки вопросов. Неясно заданные вопросы приведут к тому, что респонденты будут либо отказываться отвечать на них, а это потеря информации, либо будут давать случайные ответы, что также ведет к искажению результатов. В связи с этим до начала этапа опроса следует провести пробные интервью (так называемый пилотаж), с тем чтобы убедиться, что вопросы понятны всем, включая людей с невысоким уровнем образования.

В ходе опроса или интервьюирования также возникают различные искажения данных. Прежде всего имеет место фактор влияния личности интервьюера на результат опроса. Квалифицированый интервьюер должен строить общение с респондентом по следующей схеме: с одной стороны — расположить его к себе, вызвать на откровенность, а с другой — не оказывать ни малейшего влияния на его мнение. Помимо этого существуют и факты вопиющей недобросовестности интервьюеров, даже работающих на известные социологические службы, которые не уделяют достаточного внимания контролю за деятельностью интервьюеров: некоторые из них сами заполняют анкеты, не опрашивая респондента или задавая ему лишь часть вопросов^[12].