Статистический анализ как этап эмпирического исследования

Автор материала: Клевцова Анна Александровна
При копировании или цитировании ссылка на сайт и автора обязательна.


Эмпирическое исследование на сегодняшний день является одним из достоверных методов научного знания. Исследования проводятся повсеместно: и в научной сфере и в сфере торговли. Они прочно вошли в нашу жизнь притом, что очень часто мы не задумываемся, когда слышим «социологическое исследование показало…», или «маркетинговое исследование выявило…», или «психологи говорят…». А ведь все эти исследования, будь то исследование в маркетинге, социологии, психологии или в любой другой сфере имеют в своей основе чёткую научную базу и строгую процедуру организации.

Обычно процесс эмпирического исследования включает следующие этапы:

  1. Определение предмета и объекта исследования, постановка его цели и задач;
  2. Планирование исследования и выдвижение рабочих гипотез;
    • Выборка для эмпирического исследования;
    • Выбор методов и методик.
  3. Проведение исследования, направленного на сбор эмпирического материала;
  4. Обработка эмпирических данных;
  5. Обсуждение и интерпретация данных;
  6. Формулировка выводов, подтверждающих или опровергающих гипотезы.

Любое эмпирическое научное исследование начинается с того, что исследователь фиксирует выраженность интересующего его свойства (или свойств) у объекта или объектов исследования, как правило, при помощи чисел. Таким образом, следует различать объекты исследования (в социальных науках это чаще всего люди, испытуемые), их свойства (то, что интересует исследователя, составляет предмет изучения) и признаки, отражающие в числовой шкале выраженность свойств.

Необходимо уже на начальных этапах планирования исследования принять решение, какой будет размер выборки, какие методы сбора информации будут использованы и, наконец, какие виды обработки будут применены к полученным данным.

При планировании исследования формулируется рабочая гипотеза как временное предположение, необходимое для систематизации фактического материала, после анализа которого, гипотеза уточняется.

Общая гипотеза определяется целью всего исследования. Кроме этого формулируются частные гипотезы, которые подлежат эмпирической проверке и представляют собой предположительные ожидаемые результаты. Гипотеза должна быть верифицируемой, то есть проверяемой (доказываемой или опровергаемой) с помощью определенных статистических и научных методов. Для этого понятия, которые она использует, и соответствующие суждения предположительного характера должны быть достаточно четкими и конкретными. Необходимо определить экспериментальные и математико-статистические критерии, при которых исследователь может однозначно утверждать: подтвердилась гипотеза или нет. Доказательство гипотез основывается на фактах, аргументах и процедуре логических выводов

Необходимо внимательно подходить к составлению выборки испытуемых в эмпирическом исследовании. Важно учитывать пол, возраст, социальное положение, уровень образования, состояние здоровья, индивидуально-психологические особенности испытуемых и другие параметры, которые могут оказать влияние на результаты. Выборка должна моделировать генеральную совокупность, то есть быть репрезентативной по отношению ко всей изучаемой категории людей. Для этого она должна быть случайной или специально подобранной так, чтобы представлять основные типы испытуемых, существующие в популяции. При этом переменные, являющиеся источником артефактов, либо устраняются, либо их влияние усредняется. Выводы исследования должны распространяться на всех членов изучаемой группы людей, а не только на представителей этой выборки. Испытуемых необходимо правильно распределить относительно разных условий исследования, важно обеспечить эквивалентность экспериментальной и контрольной групп.

Численность выборки испытуемых для эмпирического исследования или практической психологической работы должна обеспечивать доказательность положений, которые защищаются в работе. В зависимости от целей и возможностей она может быть от одного испытуемого до нескольких тысяч человек. Количество испытуемых в отдельной группе (экспериментальной или контрольной) в большинстве экспериментальных исследований варьирует от 1 до 100. Исходя из методов математической обработки, рекомендуется, чтобы численность сравниваемых групп была не менее 30—35 человек, поскольку при таком количестве испытуемых коэффициенты корреляции выше 0,35 значимы при а = 0,05.

Если для обработки данных используется факторный анализ, то существует простое правило: надежные факторные решения можно получить лишь в том случае, когда количество испытуемых не менее чем в 3 раза, превышает число регистрируемых параметров. Кроме того, целесообразно увеличение количества испытуемых по крайней мере на 5—10 % , поскольку часть из них будет «отбракована» в ходе исследования (не поняли инструкцию, не приняли задачу, дали отклоняющиеся результаты).

Сбор эмпирического материала представляет собой ответственную часть исследования. Организационная работа и практическое проведение методик изучения требуют от исследователя ряда особых умений. Необходимо предусмотреть, чтобы объект исследования был доступен для практического контакта с ним в условиях, необходимых для изучения. Важно правильно спланировать время, место и обстоятельства экспериментальной работы, скорректировать их в зависимости от реальных условий. Испытуемые не должны быть озабочены срочными делами и чрезмерным дефицитом времени для выполнения задания. Их не должны отвлекать посторонние раздражители. Для успеха исследовательской работы на данном этапе обязательно практическое владение соответствующей техникой сбора эмпирических данных, детальное знание методов и методик, которые используется.

Обработка эмпирических данных исследования делится обычно на несколько этапов:

Первичная обработка данных

  • Составление таблиц
  • Преобразование формы информации
  • Проверка данных.

Статистический анализ данных

  • Анализ первичных статистик
  • Оценка достоверности отличий
  • Нормирование данных
  • Корреляционный анализ
  • Факторный анализ

В большинстве случаев обработку данных целесообразно начать с составления сводных таблиц.

Сводная таблица данных – это своеобразный «аккумулятор» всех данных, полученных в результате проведённого исследования, в идеале она должна содержать данные всех испытуемых по всем методикам исследования. Обычно сводные таблицы составляются в программе Microsoft Office Excel, либо Word, Access.

Основой для сводной таблицы исходных данных является следующая форма. Каждая строка содержит значения всех показателей одного испытуемого. В каждом столбце (поле) записаны значения одного показателя по всем испытуемым. Таким образом, в каждой ячейке (клетке) таблицы записано только одно значение одного показателя одного испытуемого. В самой верхней строке даны номер испытуемого по порядку, ФИО (или какой-нибудь другой идентификатор), измеренные показатели, шкальные оценки и т.п. Эта строка облегчает ориентировку в таблице. В каждой последующей строке записана ФИО испытуемого и значения всех, измеренных у него параметров; разумеется, для всех испытуемых в одном и том же порядке показателей.

Испытуемых можно перечислить в алфавитном порядке, но лучше использовать этот принцип на самом нижнем уровне деления. Сначала лучше разделить испытуемых по их принадлежности к каким-либо подгруппам, которые будут сравниваться между собой. Внутри этих подгрупп полезно упорядочить испытуемых по полу, возрасту или другому, важному для вас, параметру.

Преобразование формы информации

В таблицу целесообразно внести все интересующие вас признаки в форме десятичного числа, то есть предварительно пересчитать минуты в десятичные доли часа, секунды – в десятичные доли минуты, количество месяцев – в десятичную долю года и т.д. Это необходимо, поскольку формат данных для большинства используемых сейчас компьютерных программ накладывает свои ограничения. Старайтесь также без особой необходимости не заносить в таблицу различные текстовые символы (точки, запятые, тире и т.п.).

Всю информацию, которую можно закодировать числами, лучше перевести в числовую форму. Это даст больше возможностей для разных видов обработки данных. Исключением является первая строка, в которой записаны названия (чаще краткие названия – аббревиатуры) измеренных показателей. В виде чисел в таблицу можно вписать информацию и о тех параметрах выборки, которые предположительно могут оказаться значимыми факторами, но имеются у вас в качественных показателях. Наиболее простыми операциями могут быть: числовое кодирование (мужчины – 1, женщины – 2; прошедшие обучение – 1, не прошедшие – 2 и т.п.) и перевод качественных показателей в ранги.

Проверка данных

После создания таблицы на бумаге или компьютере необходимо проверить качество полученных данных. Для этого часто достаточно внимательно осмотреть массив данных. Начать проверку следует с выявления ошибок (описок), которые заключаются в том, что неправильно написан порядок числа. Например, 100 написано вместо 10, 9,4 – вместо 94 и т.п. При внимательном просмотре по столбцам это легко обнаружить, поскольку сравнительно редко встречаются параметры, которые сильно варьируют. Чаще всего значения одного параметра имеют один порядок или ближайшие порядки. При наборе данных на компьютере важно соблюдать требования к формат данных в используемой статистической программе. Прежде всего это относится к знаку, которые должен отделять в десятичном числе целую часть от дробной (точка или запятая).

Использование методов математической статистики при обработке первичных эмпирических данных необходимо для повышения достоверности выводов научного исследования. При этом не рекомендуется ограничиваться использованием таких показателей, как средние арифметические и проценты. Они чаще всего не дают достаточных оснований для обоснованных выводов из эмпирических данных.

Выбор метода статистического анализа полученных эмпирических данных — очень важная и ответственная часть исследования. И делать это лучше до того, как получены данные. При планировании исследования необходимо заранее продумать, какие эмпирические показатели будут регистрироваться, с помощью каких методов будут обрабатываться, и какие выводы при разных результатах обработки можно будет сделать.

При выборе статистического критерия нужно, прежде всего, идентифицировать тип переменных (признаков) и шкалу измерения, которая использовалась при измерении показателей и других переменных — например, возраст, состав семьи, уровень образования. В качестве переменных могут выступать любые показатели, которые можно сравнивать друг с другом (то есть измерять). Следует иметь в виду, что в исследованиях могут широко использоваться номинативные и порядковые шкалы: вербальные и невербальные поведенческие реакции пол, уровень образования — все это может рассматриваться в качестве переменных. Главное — иметь четкие и ясные критерии их отнесения к тому или иному типу в зависимости от поставленных гипотез и задач.

При выборе статистического критерия нужно ориентироваться также на тип распределения данных, который получился в исследовании. Параметрические критерии используются в том случае, когда распределение полученных данных рассматривается как нормальное. Нормальное распределение с большей вероятностью (но не обязательно) получается при выборках более 100 испытуемых (может получиться и при меньшем количестве, а может не получиться и при большем). При использовании параметрических критериев необходима проверка нормальности распределения.

Для непараметрических критериев тип распределения данных не имеет значения. При небольших объемах выборки испытуемых целесообразно выбрать непараметрические критерии, которые дают большую достоверность выводам, независимо от того, получено ли в исследовании нормальное распределение данных. В некоторых случаях статистически обоснованные выводы могут быть сделаны даже при выборках в 5—10 испытуемых.

Во многих исследованиях осуществляется поиск различий в измеряемых показателях у испытуемых, имеющих те или иные особенности. При обработке соответствующих данных могут использоваться критерии для выявления различий в уровне исследуемого признака или в его распределении. Для определения значимости различий в проявлении признака в исследованиях часто используются такие показатели, как парный критерий Вилкоксона, U-критерий Манна—Уитни, критерий х-квадрат (х2), точный критерий Фишера, биномиальный критерий.

Во многих исследованиях осуществляется поиск взаимосвязи исследуемых показателей у одних и тех же испытуемых. Для обработки соответствующих данных могут использоваться коэффициенты корреляции. Связь величин друг с другом и их зависимость часто характеризуется коэффициентом линейной корреляции Пирсона и коэффициентом ранговой корреляции Спирмена.

Структура данных (и соответственно структура изучаемой реальности), а также их взаимосвязь выявляется факторным анализом.

Во многих исследованиях интерес представляет анализ изменчивости признака под влиянием каких-либо контролируемых факторов, или, другими словами, оценка влияния разных факторов на изучаемый признак. Для математической обработки данных в таких задачах может использоваться U-критерий Манна—Уитни, критерий Краскела—Уоллиса, Т-критерий Вилкоксона, критерий ?2 Фридмана. Однако для исследования влияния, а тем более взаимовлияния нескольких факторов на изучаемый параметр полезнее может оказаться дисперсионный анализ. Исследователь исходит из предположения, что одни переменные могут рассматриваться как причины, а другие как следствия. Переменные первого рода считаются факторами, а переменные второго рода — результативными признаками. В этом отличие дисперсионного анализа от корреляционного, в котором предполагается, что изменения одного признака просто связаны с определенными изменениями другого.

Во многих исследованиях выявляется значимость изменений (сдвига) каких-либо параметров и проявлений за определенный промежуток времени, в определенных условиях (например, в условиях коррекционного воздействия). Формирующие эксперименты в практической психологии решают именно эту задачу. Для обработки соответствующих данных могут использоваться коэффициенты для оценки достоверности сдвига в значениях исследуемого признака. Для этого часто применяются критерии знаков, Т-критерий Вилкоксона.

Важно обратить внимание на ограничения, которые имеет каждый критерий. Если один критерий не подходит для анализа имеющихся данных, всегда можно найти какой-либо другой, возможно, изменив тип представления самих данных. Прежде чем проводить статистический анализ эмпирических данных, полезно проверить, существуют ли критические значения, соответствующие количеству и типу ваших данных. В противном случае вас может ждать разочарование, когда ваши подсчеты окажутся напрасными по причине отсутствия в таблице критических значений при объеме выборки, которая у вас была.

После знакомства с процедурой вычисления критерия можно проводить «ручную» обработку данных или воспользоваться статистической программой персонального компьютера. Для компьютерной обработки наиболее популярны программы SPSS и Statistica.

Использование статистических программ в компьютерной обработке на несколько порядков ускоряет обработку материала и предоставляет в распоряжение исследователя такие методы анализа, которые в ручной обработке не могут быть реализованы. Однако в полной мере эти преимущества могут быть использованы, если исследователь имеет необходимый уровень подготовки в этой области. Обычно, чем мощнее компьютерная программ (чем более широкие у неё возможности), тем больше времени она требует для освоения. Таким образом, затрачивать время на её изучение при редких обращениях к мощному статистическому аппарату не совсем эффективно. Очень часто использование таких программ для решения даже несложных задач также требует определённой суммы умений.

Для того, чтобы избежать лишних сложностей и временных затрат, гораздо эффективнее обратиться к профессионалам. Они качественно и профессионально проведут весь необходимый математико-статистический анализ данных вашего исследования: анализ первичных статистик, оценку достоверности различий, нормирование данных, корреляционный и факторный анализ и т.п.

После проведения необходимого статистического анализа данных нужно соотнести полученные результаты с изначально поставленной гипотезой, с теоретическими обоснованиями авторов, которые исследовали данную тематику и предыдущими исследователями. Сформулировать выводы и проинтерпретировать полученные результаты.