Диалектика

Главная > - Информационные технологии > МЕТОДЫ ОБРАБОТКИ ДАННЫХ > Регрессионный анализ

Регрессионный анализ.
- 15.04.24 г.
- 9772225665000    24012

А. Регрессия – зависимость случайных переменных, выражающая связь зависимой переменной у и независимых переменных х_i при условии, что это выражение имеет статистическую значимость.
Независимая переменная – это входная, изменяемая переменная. Независимые переменные еще называют регрессорами, или предикторами, или факторами.
Зависимая переменная – это результирующая переменная. Еще ее называют критериальной, или объясняемой.
В случае, когда независимая переменная единственна, то говорят о парной регрессии, или о простейшей регрессии. В иных случаях говорят о множественной регрессии.

В отличие от функциональной зависимости y = f(x), когда каждому значению переменной x соответствует одно определенное значение переменной y, при регрессии одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y (следует отметить, что «случаи» лучше понимать в качестве значений независимых переменных еще одной концептуальной оси).
Так как анализируемые данные получаются в эксперименте, то они неизбежно содержат ошибку измерений, шум и т.п., и поэтому целесообразнее требовать то, чтобы функция регрессии передавала общую тенденцию, а не точно проходила через все точки, что в общем случае практически невозможно.

Можно сказать, что регрессия – это зависимость, линия (график) которой проводится максимально близко к экспериментально определенным точкам, и при этом сохраняется ее максимально простой вид, позволяющий понять общую тенденцию.

Функция потерь характеризует степень того, насколько сильно вычисленная зависимость отклоняется от первичных (экспериментальных) значений в выбранных точках.

Под качеством уравнения регрессии понимается степень близости (соответствия) рассчитанных по данному уравнению значений результата f(x) к фактическим (наблюдаемым) значениям.

В теории вероятностей под термином «регрессия» понимают функцию, которая выражает условное математическое ожидание одной случайной (зависимой) переменной при условии, что другая случайная переменная (независимая) приняла конкретное значение.

В целом вопросы регрессии связаны с определением ее общего вида, ее уравнения, оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез. Эти проблемы рассматриваются в рамках регрессионного анализа.

Б. Регрессионный анализ – это инструмент для количественного определения значения одной переменной на основании данных о другой(их).
    На практике обычно коэффициенты регрессии неизвестны и их оценивают по экспериментальным данным.
    Регрессионный анализ позволяет исследовать зависимость количественного отклика от одной или нескольких независимых количественных переменных и построить математическую модель зависимости, которая называется уравнением регрессии.

Можно сказать, что регрессионный анализ – это набор статистических методов исследования влияний одной или нескольких независимых переменных на зависимую переменную.
    Или регрессионный анализ – это группа методов, направленных на выявление и математическое выражение тех изменений и зависимостей, которые имеют место в системе заданных случайных величин.
    Регрессионный анализ позволяет осуществить выбор из множества возможных зависимостей ту, у которой минимизируется функцию потерь.
    Регрессионный анализ ограничивается выявлением тенденции и ее особенностей.
    Характеристики измеряются в разных шкалах, что накладывает ограничения на способы математического выражения изменений и зависимостей.

Концептуальная цель регрессионного анализа – описать связь случайных величин аналитической зависимостью, т.е. с помощью уравнения.
    Цели регрессионного анализа – определение
– значения зависимой переменной с помощью независимых переменных,
– вклада отдельных независимых переменных в изменение зависимой переменной,
– степени детерминированности вариации зависимой переменной независимыми переменными.

Задачами регрессионного анализа являются установление
– взаимосвязи данных случайных величин,
– факта изменчивости изучаемого явления при определенных, хотя и не всегда четко фиксированных условиях,
– тенденции изучаемого явления как изменения признака; он может зависеть и от неизвестных или неконтролируемых исследователем условий, но это не критично для регрессионного анализа, который ограничивается лишь выявлением тенденции и ее особенностей.

Условия/допущения регрессионного анализа:
– переменные должны иметь распределение, близкое к нормальному,
– переменные должны быть измерены посредством метрической шкалы,
– отсутствие мультиколлинеарности,
– отсутствие высокой корреляции,
– отсутствие автокорреляции,
– гомоскедастичность (дисперсия остатков одинакова для каждого значения).

В. Методы регрессионного анализа.
    В целом, методы регрессионного анализа рассчитаны, главным образом, на случай устойчивого нормального распределения, в котором изменения от опыта к опыту проявляются лишь в виде независимых испытаний.
1) Дерево принятия решений (также может называться деревом классификации или регрессионным деревом).
    Средства поддержки принятия решений:
– алгоритм CART (это методы классификации и регрессии с использованием дерева решений),
– алгоритм C4.5 (строит дерево решений с неограниченным количеством ветвей у узла).
2) Метод опорных векторов (он также известен как метод классификатора с максимальным зазором).
    Он применяется для задач классификации и регрессионного анализа. Основная идея метода – перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве
3) Алгоритм k-ближайших соседей (этот алгоритм способен выделить среди всех наблюдений k известных объектов (k-ближайших соседей), похожих на новый неизвестный ранее объект).
4) Байесовская сеть (графовая вероятностная модель, представляющая собой множество переменных и их вероятностей).

Г. На практике линия регрессии чаще всего ищется в виде линейной функции, которая, согласно определенным математическим критериям, обычно хорошо соответствует эмпирическим данным: вычисляется прямая (или гиперплоскость), сумма квадратов между которой и данными минимальна.
    При построении линейных регрессий зависимая и независимые переменные должны иметь линейную связь.

Линейная регрессия (парная или простая регрессия) – линейная зависимость объясняемой переменной от одной независимой переменной – зависимость, выражаемая линейной функцией зависимости: y = af(x) + b.
    Задача построения графика линейной регрессии сводится к поиску a и b, причем интересует разница между экспериментальным значением и вычисляемым (функция потерь).
    Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной от выбранной независимой переменной при фиксированных остальных независимых переменных (в линейной модели эта скорость постоянна).
    Линейная регрессия дает правила, определяющие линию регрессии, которая лучше других предсказывает наиболее вероятные значения одной переменной на основании другой (переменных всего две).

В классической линейной регрессии предполагается, что наряду со стандартными условиями:
– факторы предполагаются детерминированными (нестохастическими),
– предполагается, что отсутствует полная коллинеарность факторов,
выполнены также условия Гаусса-Маркова:
– гомоскедастичность (постоянная или одинаковая дисперсия) или отсутствие гетероскедастичности случайных ошибок модели,
– отсутствие автокорреляции случайных ошибок.

Варианты поиска решений связаны с вычислением функции потерь.
    Первый вариант: рассчитываются суммы модулей отклонений.
    Второй вариант: высчитывается наименьшая сумма квадратов отклонений значений зависимой переменной. Это – метод наименьших квадратов (OLS). Он позволяет получить достаточно хорошие оценки параметров регрессии.
    Третий вариант: рассчитываются сумма квадратов разностей значений независимой переменной и значений зависимой переменной (SSE).

Обычно учитываются аномальные значения (выбросы) и точки влияния.
    Выброс – это значение зависимой переменной, которое значительно отличается от большинства значений в наборе данных.
    Выброс может явно обнаруживаться визуально при осмотре графика измерений.
    Точка влияния – это независимая переменная, которая изменяет одну или больше оценок параметров модели. Ей соответствует влиятельное наблюдение.
    Выброс может быть влиятельным наблюдением.
    При проведении анализа не стоит отбрасывать выбросы или точки влияния, поскольку их игнорирование может существенно повлиять на результаты анализа. Необходимо изучать причины появления этих выбросов, анализировать и учитывать их.

Д. Множественная регрессия является расширением простой линейной регрессии.
    Применение множественной регрессии позволяет определить относительную ценность независимых переменных при предсказании зависимой переменной.
    В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных.

Е. Акцентируем положения, касающиеся регрессии, важные для решения задач Раздела и при установлении диалектических свойств регрессии:
– выявление диалектических характеристик методов (видов анализа), не рассматриваемых в науках,
– выявление качественных характеристик методов (видов анализа), не рассматриваемых в науках,
– установление внутренних (сверхчувственных) характеристик методов (видов анализа), не рассматриваемых в науках.
Указанные положения позволяют
– установить некоторые сверхчувственные аспекты методов,
– расширить представление о методах,
– выявить диалектику методов,
– перейти к формированию математики, понимаемой не только как количественная наука.

См. «Аномалии данных» и «Математическое представление вещи и ИТ».

Дискуссии и конференции. Методы