Дисперсионный анализ.
- 12.05.24 г.
- 9772225665000     24014


>> Статья составлена по материалам многочисленной литературы по дисперсионному анализу в целях а) демонстрации согласования общеупотребимых терминов на разных планах исследований и б) подготовки к переходу к решению одной из основных задач настоящего Раздела.


После рассмотрения в этом Разделе классификации, кластеризации, факторного анализа, корреляционного анализа, ассоциативных правил и регрессионного анализа, характеризующихся определенной аналитичностью, необходимо акцентировать следующий способ – способ вероятностного исследования.


А. Сравнение средних − один из способов выявления взаимосвязи между переменными, характеризующими исследуемые объекты, хотя, на самом деле, при исследовании статистической значимости различия между средними в действительности анализируются дисперсии.
    Одним из наиболее общих способов сравнения средних является дисперсионный анализ.

В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (независимые переменные, факторы). Их можно изменять в ходе эксперимента и анализировать получающийся результат, поэтому независимые переменные иногда называют регулируемыми факторами.
    Результирующие переменные следует рассматривать как следствия (зависимые переменные).

Дисперсионный анализ применяется для исследования влияния одной или нескольких независимых (обычно качественных) переменных (факторов) на одну зависимую (обычно количественную) переменную (отклик) в целях установления значимости независимой переменной и выбора стратегий манипулирования ею. Независимые переменные являются номинативными, то есть отражают групповую принадлежность, и могут иметь два или более значения. Зависимые переменные представлены значениями абсолютных шкал.

Дисперсионный анализ возможно применять только тогда, когда распределение является нормальным.

Таким образом, дисперсионный анализ является статистическим методом, предназначенным для выявления влияния ряда отдельных факторов на результаты эксперимента (измерений).
    Фактически, дисперсионный анализ – это метод, который используется для сравнения средних значений двух или более выборок.

(Напомним, что факторный анализ – это метод, применяемый для изучения взаимосвязей между значениями множества переменных исследуемого предмета, когда предполагается, что регистрируемые (известные, или наблюдаемые, или первичные, или исходные) переменные зависят от меньшего количества неизвестных (латентных, вторичных, или скрытых) переменных и случайной ошибки; термин «фактор» имеет несколько иное значение («собирательное»), чем в дисперсионном анализе («разделительное»).)

Основной целью дисперсионного анализа является исследование наличия существенного влияния какого-либо фактора на изменения исследуемой результативной (зависимой) переменной. Для этого фактор разделяют на группы, часто называемые градациями фактора, или классами градации, и определяют влияние фактора путем исследования значимости между средними в наборах данных, соответствующих группам фактора.

Суть дисперсионного анализа заключается в разбиении общей дисперсии изучаемого признака на отдельные компо­ненты, обусловленные влиянием конкретных факторов, и в про­верке гипотез о значимости влияния этих факторов на исследуе­мый признак. Сравнивая компоненты дисперсии, можно определить, какая доля изменения результата обусловле­на действием регулируемых факторов: если верна гипотеза о неравенстве средних некоторой зависимой переменной (отклика) в подгруппах, то это означает, что существует вероятностная взаимосвязь между зависимой переменной и независимой переменной.
    Фактически осуществляется проверка статистической значимости разницы между средними, которая проводится с помощью анализа дисперсии, т.е. с помощью разбиения общей дисперсии на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии используется для анализа статистической значимости различия между средними значениями. Если это различие значимо, то делается вывод о существовании различия между средними.
     Итак, рассматриваются
− межгрупповая дисперсия, или дисперсия, объяснимая влиянием фактора, которая характеризует различия между средними значениями групп,
− внутригрупповая дисперсия, или необъяснимая дисперсия, которая характеризует рассеивание данных внутри групп,
− общая дисперсия − это совокупность межгрупповой и внутригрупповой дисперсий.
    Таким образом, суть дисперсионного анализа состоит в изучении влияния одной или нескольких независимых переменных, факторов, на зависимую переменную, отклик: в ходе дисперсионного анализа проверяется нулевая гипотеза о равенстве средних, в качестве которой обычно выступает предположение об отсутствии взаимосвязи или корреляции между исследуемыми переменными.
    Согласно нулевой гипотезе делается первичное утверждение о том, что никаких статистически значимых различий между группами не существует, т.е. что средние значения всех групп равны между собой, а вот альтернативная гипотеза предполагает, что статистически значимые различия между группами существуют.
    Если обнаруживаются статистически значимые различия между группами, то это означает, что
− один фактор сильнее влияет на результат, отклик, чем другие,
− следует установить, как определяются различия, для чего нужно провести дополнительный анализ, например, сравнение каждой группы с другой с помощью теста Тюрки или теста Холма (https://en.wikipedia.org/wiki/Holm–Bonferroni_method ). 

Итак, дисперсионный анализ позволяет проверить следующие гипотезы:
− различия между группами являются не более выраженными, чем случайные различия внутри каждой группы (нулевая гипотеза),
− различия между группами являются более выраженными, чем случайные различия внутри каждой группы.
    Если влияние фактора не существенно, то несущественна и разница между классами градации этого фактора, и в ходе дисперсионного анализа нулевая гипотеза не отвергается. Если влияние фактора существенно, то нулевая гипотеза отвергается: не все классы градации имеют одно и то же среднее значение, то есть среди возможных разниц между классами градации одна или несколько являются существенными.

Таким образом, дисперсионный анализ − это метод математической статистики, направленный на поиск зависимостей в экспериментальных данных путем исследования значимости различий в средних.

Следует отметить, что имеется следующее преимущество дисперсионного анализа по сравнению с другими исследованиями данных, анализами, рассмотренными ранее: дисперсионный анализ позволяет обнаружить взаимодействие между факторами и, следовательно, позволяет изучать более сложные феномены.


Б. Исходными для дисперсионного анализа служат данные исследования – ряда выборок, которые могут быть разнообразными: как равными, так и неравными по численности, как связными, так и несвязными.
     В зависимости от числа оцениваемых факторов дисперсионный анализ может быть 
− однофакторным (изучается влияние одного фактора на результаты экспери­мента), 
− двухфакторным (изучается влияние двух факторов),
− многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).
     Также в зависимости от типа и количества переменных различают
− однофакторный и многофакторный дисперсионный анализ (одна или несколько независимых переменных),
− одномерный и многомерный дисперсионный анализ (одна или несколько зависимых переменных),
− дисперсионный анализ с повторными измерениями (для зависимых выборок),
− дисперсионный анализ с постоянными факторами, случайными факторами, и
факторами обоих типов.

При анализе двух групп дисперсионный анализ аналогичен применению t-критерия Стьюдента для независимых выборок.
    При наличии трех и более групп требуется попарное сравнение средних для выявления статистически значимых отличий между ними.

Однофакторный дисперсионный анализ для несвязанных выборок основан на том, что сумму квадратов отклонений статистического комплекса возможно разделить на следующие компоненты:
− сумма квадратов отклонений,
– компонента, объясняемая влиянием выбранного фактора, как сумма квадратов отклонений,
− необъясненная сумма квадратов отклонений, или сумма квадратов отклонений ошибки.
    На его основе изучается действие одной переменной на исследуемый признак: как изменяется определенный признак в разных условиях действия переменной (фактора).

Однофакторный дисперсионный анализ для связанных выборок применяет­ся в тех случаях, когда исследуется влияние разных градаций фактора или разных условий на одну и ту же выборку испытуемых. Градаций фактора должно быть не менее трех.
    Однофакторный дисперсионный анализ для связанных выборок позволяет определить то, что имеет наибольшее значение: тенденция, обусловленная изменением фактора, или индивидуальные различия между изучаемыми переменными (фактор индивидуальных различий может оказаться более значимым, чем фактор изменения экспериментальных условий).

Двухфакторный дисперсионный анализ применяется для того, чтобы проверить возможную зависимость результативного признака от двух факторов, при этом указывают число градаций каждого фактора. Тогда сумма квадратов остатков разделяется на четыре компоненты:
− сумма квадратов отклонений,
− сумма квадратов отклонений, объясненная влиянием одного фактора,
− сумма квадратов отклонений, объясненная влиянием другого фактора,
− необъясненная сумма квадратов отклонений или сумма квадратов отклонений ошибки.

Двухфакторный дисперсионный анализ с повторениями – вид факторного анализа, когда учитывается число повторений. Он применяется для того, чтобы проверить не только возможную зависимость результативного признака от двух факторов, но и их возможное взаимодействие. (Тогда сумма квадратов остатков также разделяется на четыре компоненты, см. выше.)

Многофакторный анализ позволяет оценить влияние не только каждого из факторов в отдельности, но и их взаимодействия (в общем случае взаимодействие между факторами описывается в виде изменения одного из них под воздействием другого). Однако во многих случаях эффектом взаимодействия можно пренебречь по причине того, что он в выборке отсутствует или когда осуществление полного факторного плана невозможно.

Простейшим случаем дисперсионного анализа является одномерный однофакторный анализ для двух или нескольких независимых групп, когда все группы объединены по одному признаку. В ходе анализа проверяется нулевая гипотеза о равенстве средних.
    Используя F-тест (F-критерий Фишера) можно сравнить величины выбороч­ных дисперсий двух независимых выборок: если фактическое значение критерия меньше табличного, то нулевая гипотеза (о равенстве генеральных дисперсий) принимается, в противном случае принимается альтернативная (о значимом различии дисперсий).

Анализ контрастов, при котором межгрупповая сумма квадратов дробится на суммы квадратов отдельных контрастов, позволяет оценивать статистическую значимость некоторых линейных комбинаций эффектов сложного плана (анализ контрастов главный и обязательный элемент любого сложного плана дисперсионного анализа).


В. Отдельные положения, существенные для диалектического исследования и применения дисперсионного анализа:
− при наличии трех и более групп требуется попарное сравнение средних для выявления статистически значимых отличий между ними,
− дисперсионный анализ позволяет обнаружить взаимодействие между факторами и, следовательно, позволяет изучать сложные феномены,
дисперсионный анализ в ряде случаев позволяет обнаружить существо и характер взаимодействия воздействующих факторов,
− существует взаимосвязь между дисперсионным анализом (по сути, анализом вариаций) и методом многомерной регрессии.
    Основным инструментом для диалектического исследования является (диалектически развитый) концепт нулевой гипотезы.


См. «Математическое представление вещи и ИТ».

 

Дискуссии и конференции. Методы