Статистическая обработка данных.
Некоторые основания диалектических информационных технологий.
- 11.12.22 г.
- 9772225665000 22034
Получение статистических сведений о данных представляет большой интерес как для понимания самого объекта изучения, так и для выработки программы его исследований. Соответственно в данной статье речь пойдет о некоторых параметрах и методах описательной статистики, которая включает изучение центральной тенденции, формы распределений величин и т.д. (Аналитическая статистика позволяет на основе изучения статистик получать представления о параметрах генеральной совокупности.)
Статистические параметры и методы широко известны, описаны в многочисленной литературе, поэтому мы просто кратко перечислим их, используя формулировки известных учебников и Интернет-порталов, чтобы сохранить единообразие определений. Для нас сейчас важно не само хорошо известное описание статистических параметров и методов, а их некоторые особые положения, характеристики, которые следует принимать во внимание, что в статистике почему-то проигнорировано: в ней не уделяется внимание ряду концептуальных положений, обусловленных существом, сбором и обработкой данных – в данном случае речь идет о статистической обработке данных. В целом такое положение дел объяснимо: в науках отсутствует корректное определение данных, и они рассматриваются абстрактно, по причине чего не учитываются многие их сущностные характеристики, и обработка данных сводится к внешним, а то и попросту математическим операциям (это будет продемонстрировано ниже): в целом статистические параметры и методы существенно формализованы и ограничены. А вот в диалектике в отличие от наук статистические параметры и методы не рассматриваются утилитарно и формально, и есть понимание того, что они обладают особенностью – свойством, следующим из сущностного понимания данных и позволяющим сделать ряд выводов, качественно улучшающих анализ и обработку данных.
Для выяснения обстоятельств сказанного кратко рассмотрим некоторые известные положения и их общие характеристики и сделаем некоторые замечания и выводы (методика использования новых положений будет рассмотрена позже).
1.Основные параметры и методы.
Самыми простыми методами являются вычисление максимума и минимума.
Среднее, или среднее арифметическое, – это число, равное сумме всех значений выборки, деленной на количество элементов в ней, или сумма всех наблюдаемых значений, деленная на их количество.
Для непрерывной величины вычисляется математическое ожидание: сумма всех возможных значений непрерывной величины, помноженных на их вероятность.
Математическое ожидание случайного вектора равно вектору, компоненты которого равны математическим ожиданиям компонентов случайного вектора.
Среднее смещается в ту сторону аномальных значений, или среднее сильно зависит от выбросов.
Среднее не соответствует интуитивному пониманию «среднего», например, его смещают выбросы.
Среднее имеет много видов, которые подробно описаны в литературе и о которых можно поговорить отдельно:
– усеченное среднее,
– винсоризованное среднее,
– гармоническое среднее,
– геометрическое среднее,
– среднее квадратическое,
– среднее Тьюки,
– взвешенное среднее,
– среднее для интервального распределения,
– среднее по Коши,
– среднее для дихотомической шкалы,
– среднее Колмогорова (частный случай среднего по Коши),
– среднее степенное (частный случай среднего Колмогорова).
Медиана – значение, которое делит упорядоченные по возрастанию (убыванию) данные пополам. Это середина выборки – число, которое находится в середине этого набора, если его упорядочить по возрастанию.
Можно сказать, что медиана – это число, сумма расстояний от которого до всех чисел из набора минимальна. Это определение естественным образом обобщается на многомерные наборы данных.
Также определяется медиана случайной величины: она определяется как число, которое делит пополам распределение, или медианой случайной величины является такое число, что вероятность получить значение случайной величины справа от него равна вероятности получить значение слева от него (и они обе равны 0,5).
Медиана определяется и через квартили (см. ниже), она является
– 50-м персентилем,
– 0,5-квантилем,
– вторым квартилем выборки или распределения.
Медиана незначительно смещается в сторону аномальных значений: даже очень сильные выбросы изменяют медиану незначительно.
Медиана соответствует интуитивному пониманию «среднего».
(При сравнении среднего и медианы часто приводят такой пример: если к ста беднякам с доходами в среднем 0,5 $ добавить одного миллиардера, то среднее сместится от 0,5 $ до 10 млн $, в то время как медиана – от 0,5 $ до 0,505.)
Мода – значение, которое встречается наиболее часто.
При экспертной оценке с ее помощью определяют наиболее популярные элементы выборки, что учитывается при прогнозе, например, продаж или планировании производства.
Для дискретных распределений модой считают любое значение, вероятность которого больше, чем вероятности соседних значений.
Модой непрерывного распределения называют любую точку локального максимума плотности распределения.
Мода – точка, в которой плотность распределения имеет локальный максимум.
Распределение может иметь несколько мод, и в этом случае говорят, что совокупность мультимодальна.
Как правило, мультимодальность указывает на то, что набор данных не подчиняется нормальному распределению.
Мода позволяет работать с данными нечисловой природы (например, какой товар наиболее популярен).
Мода не зависит от значений распределения в других точках, что можно считать как ее достоинством, так и недостатком.
Квантиль – значение, которое случайная величина не превышает с заданной вероятностью. Если для оценки используется величина, заданная в процентах, то квантиль называют процентителем.
Квантиль не следует путать с квартилем.
Квартиль – значение, которое делит вариационный ряд на четыре равные по объему части
– 0,25-квантиль называется первым (или нижним) квартилем;
– 0,5-квантиль называется медианой или вторым квартилем;
– 0,75-квантиль называется третьим квартилем.
Так же, как и в случае моды и медианы, у интервального вариационного распределения каждый квартиль принадлежит определенному интервалу и имеет вполне определенное значение.
Квартильный размах (IQR) – разница между первым и третьим квартилями.
Дециль характеризует распределение величин совокупности, при котором девять значений дециля делят ее на десять равных частей. Любая из этих десяти частей составляет 1/10 всей совокупности. Так, первый дециль отделяет 10% наименьших величин, лежащих ниже дециля, от 90% наибольших величин, лежащих выше дециля.
Так же, как в случае моды и медианы, у интервального вариационного распределения каждый дециль принадлежит определенному интервалу и имеет вполне определенное значение
Дисперсией случайной величины называют математическое ожидание квадрата отклонения случайной величины от ее математического ожидания.
Дисперсия случайной величины – мера разброса значений случайной величины относительно ее математического ожидания.
Дисперсия измеряется в квадратах единиц, в которых измеряется сама случайная величина.
Дисперсия выборки больше, чем генеральной совокупности, так как выборка менее точна, чем полные данные, и разброс получается больше.
Еще высчитывается дисперсия для сгруппированных данных.
Так как исследуемые данные – это обычно не вся совокупность, а выборка из нее, то вместо дисперсии считают ее оценку по имеющейся выборке.
Дисперсия может быть бесконечной.
Среднеквадратическое (среднеквадратичное) отклонение – показатель рассеивания значений случайной величины относительно ее математического ожидания (аналога среднего арифметического с бесконечным числом исходов). Обычно он означает квадратный корень из дисперсии случайной величины, но иногда может означать тот или иной вариант оценки этого значения.
Стандартное отклонение измеряется в единицах, в которых измеряется сама случайная величина.
Среднеквадратическое отклонение можно считать мерой неопределенности.
Коэффициент вариации (относительное стандартное отклонение) – это стандартная мера дисперсии распределения вероятностей или частотного распределения. Она часто выражается в процентах и определяется как отношение стандартного отклонения к среднему.
Коэффициент вариации следует вычислять только для данных, измеренных на шкале отношений, то есть шкал, которые имеют значимый нуль и, следовательно, допускают относительное сравнение двух измерений.
Коэффициент вариации может не иметь никакого значения для данных интервальной шкалы.
Фактическое значение коэффициента вариации не зависит от единицы измерения, поэтому оно является безразмерным числом. Для сравнения наборов данных с различными единицами измерения или сильно отличающимися средними величинами следует использовать коэффициент вариации вместо стандартного отклонения.
Когда среднее значение близко к нулю, коэффициент вариации будет приближаться к бесконечности и поэтому чувствителен к небольшим изменениям среднего. Это часто происходит, если значения не исходят из шкалы отношений.
(Коэффициент корреляции и коэффициент ковариации будут рассмотрены позже при исследовании видов анализов.)
Кумулятивная функция распределения вещественной случайной величины – это вероятность, с которой функция примет значение, меньшее или равное заданному.
В случае скалярного непрерывного распределения она дает площадь под функцией плотности вероятности от минус бесконечности до заданного значения.
Кумулятивные функции:
– кумулятивная сумма,
– кумулятивное произведение.
Кумулятивные функции распределения используются для определения распределения многомерных случайных величин.
Распределение вероятностей – это математическое описание вероятностей событий, подмножеств выборочного пространства.
Распределение вероятностей – это закон, описывающий область значений случайной величины и соответствующие вероятности появления этих значений.
Различают
– дискретные распределения,
– непрерывные распределения,
– многомерное распределение,
– сингулярные распределения.
2.Некоторые известные в науках характеристики статистических параметров и методов как основа новых знаний, познания и диалектических информационных технологий.
Выше, кроме краткого напоминания существа статистических параметров и методов, речь фактически шла о некоторых их свойствах и характеристиках (их полный перечень может быть обсужден отдельно). И вроде бы в них нет ничего удивительного, они считаются очевидными, и поэтому в науках они не исследуются отдельным образом на предмет сущностных и новых аспектов данных и их обработки. Однако фактически речь шла о метаданных и о новых данных, которые характеризуют исходные данные, и о ряде их эмерджентных свойств (их полный перечень может быть обсужден отдельно), то есть о новых характеристиках, смысл и природу которых следовало бы установить и использовать для обработки данных. Иными словами, речь шла о нечто новом по отношению к данным, которое не только их характеризует, что обычно подразумевается в науках, но и является некоторой определенной непосредственностью, что игнорируется в науках, а вот в диалектике исследуется отдельным образом, причем в совокупности с древними диалектическими представлениями. Таким образом, по сути, речь идет о принципиально новой области познания, которая развивается в диалектическом программировании на базе исследования данных, в том числе за счет статистических параметров и методов (чему отчасти посвящена настоящая статья).
Кратко остановимся на ряде положений (их полный перечень может быть обсужден отдельно), которые дают представление о сути сказанного.
Начнем с того, что измерение центральной тенденции состоит в выборе числа, которое служит для общего описания значений конкретного признака. Это число обычно не только не совпадает ни с каким конкретным числом из данных, но и качественно отлично от данных, причем имеет собственное понимание и значение – новые значения и смыслы.
Чрезвычайно интересным положением является сравнение средних – один из способов выявления взаимосвязи между переменными или признаками, характеризующими исследуемую совокупность объектов. Так, если при разбиении объектов исследования на подгруппы при помощи категориальной независимой переменной верна гипотеза о неравенстве средних некоторой зависимой переменной в подгруппах, то это означает, что существует взаимосвязь между зависимой переменной и категориальным предиктором. Приведенный пример дает представление об одном из самых значимых эмерджентных свойств статистических параметров.
Более того, обобщение сравнения средних выводит на более высокий уровень описания и осмысления данных – приводит к пониманию дисперсионного анализа, который будет рассмотрен более подробно позже. Это связано с тем, что при исследовании статистической значимости различия между средними, на самом деле, анализируются дисперсии.
И вообще среднее, каким бы простым оно не казалось, имеет достаточно большое значение для исследований объекта (например, при применении t-критерия Стьюдента, связанного с проверкой равенства средних значений в двух выборках).
Таким образом, изучение среднего позволяет выявлять метаданные и новые свойства и характеристики данных. Это принципиально важное положение, однако характерное практически для всех статистических параметров и методов.
Одним из способов создания новых смыслов и параметров (их полный перечень может быть обсужден отдельно) является объединение данных, или процесс превращения значений набора данных в одно значение, – агрегация, или агрегирование. С ее помощью можно установить новые определения данных:
– простые определения данных (общее количество параметров, наименьшее/наибольшее значение и т.п.),
– статистические определения данных (среднее, медиана и другие, указанные выше),
– концептуальные определения данных (общие тенденции и паттерны в данных).
Не менее эффективным инструментом получения метаданных и более подробных сведений о данных и объекте является известное и широко применяемое дезагрегирование, или расслоение.
Дезагрегированные данные – самые подробные данные, у которых самая высокая степень детализации, позволяющая подробно изучать данные и объект, отдельные свойства и общие характеристики и т.д., что невозможно на основе первоначально собранных (недезагрегированных) данных...
В смысле а) аналитической обработки данных и метаданных и б) выявления отношений, получения новых сведений о данных и об объекте отдельным образом следует акцентировать распределение вероятностей как закон, описывающий область значений случайной величины и соответствующие вероятности появления этих значений. При чем в этом случае речь идет не о самих величинах или их характеристиках, а уже о принципиально новом параметре – о вероятности значений, т.е. имеет место эмерджентное свойство данных.
Можно указать и обсудить и другие, еще более интересные аспекты исследования и обработки данных и метаданных (их полный перечень может быть обсужден отдельно), известные в науках, но понимаемые в них чисто математически, ограниченно, количественно, а не качественно, что и не позволяет в науках даже поставить вопросы о природе и причине указанных феноменов.
Более того, вроде бы никаких особенных и качественных преобразований с данными не осуществляется: имеются лишь математические манипуляции – количественные, не качественные. И это – лишь исполнение, создание, вычисление параметра. Но откуда же тогда берутся подробности, новые сведения и метаданные? Почему за счет статистических (математических) действий без хитроумных приемов (например, Технологии Data Mining) – за счет наипростейших приемов – удается получить новые значения, смыслы, определения, более подробные сведения о данных и объекте, взаимосвязи между переменными, метаданные, эмерджентные свойства, более высокий уровень описания и осмысления данных и др.? (Их полный перечень может быть обсужден отдельно.) Почему манипуляции, имеющие количественные математические основания или причины, ведут к некоторому новому качеству, смыслу? И где, как и почему он был скрыт в данных? Ответа на эти вопросы в науках нет, хотя они являются очевидными и одними из основных при понимании данных и их обработки в диалектике. Им будут посвящены отдельные статьи сайта, а пока отметим, что ответ на эти вопросы обнаруживают ряд важных концептуальных и структурных положений (их полный перечень может быть обсужден отдельно), которые активно используются в диалектических информационных технологиях. Например: данные включают в себя не только эмерджентные особенности (объекта и его свойств), но и основания методов их обработки и исследования объекта. В принципе это утверждение и так было известно из предыдущих материалов сайта, однако теперь оно получило понятное для наук, наглядное разъяснение. Однако для диалектики оно имеет более глубокое значение, ибо обнаруживает опосредствование, которое не замечено в науках и в информационных технологиях, а вот для диалектики является весьма значимым фактором, обозначение и раскрытие которого и составляет одну из целей настоящего Раздела как одного из оснований диалектических информационных технологий.
Остается лишь добавить, что осмысление данных на указанных, более высоких уровнях, чем в науках, и анализ их эмерджентных свойств позволяет разработать подходы к качественной математике, один из аспектов подхода к которой уже упоминался на сайте…
Дискуссии и конференции. Методы.