Аномалии данных.
(Настоящая статья является продолжением статьи «Критерий и порядок сбора данных».)
- 30.10.22 г.
- 9772225665000 22028
В прошлой статье «Некоторые аспекты представления данных» при анализе процесса сбора данных и их характеристик косвенно был затронут важный вопрос: искажение данных, или аномалии данных. Понятно, что данные не всегда можно собрать полностью, корректно, кроме того, возможны неумышленные или даже преднамеренные искажения. Следовательно, для осмысления и предметной обработки данных их нужно обязательно проанализировать на предмет искажений. Фактически это одно из требований к сбору данных и их представлению, которому посвящена настоящая статья, являющаяся логическим продолжением указанных предыдущих двух.
Итак, рассмотрим некоторые аспекты аномалий данных и их выявления, которых будет достаточно для понимания соответствующих проблем в науках и для путей их исправления в диалектическом программировании.
А. Аномалии данных обычно понимаются как искажения данных или даже как данные (часть собранных данных), которые вызывают сомнения или подозрения по причине существенного отличия их от остальных данных. Причиной этого являются, в основном, ошибки при сборе данных и их фиксации.
Обычно аномальные данные понимаются как
– неполные;
– случайные объективные искажения, в первую очередь, выбросы, шумы, отсутствие данных и т.п.;
– «новые данные»;
– данные, искажаемые в силу субъективных причин;
– преднамеренные вторжения, искажения, имеющие субъективные причины, лучше сказать – умысел (их можно назвать умышленными искажениями);
– несопоставимые данные (это понятие диалектического программирования, см. ниже).
Основными и наиболее изученными являются «новые данные», выбросы и преднамеренные вторжения.
Выбросы – данные со значениями, значительно отличающимися от средних.
Способов обнаружения выбросов достаточно много (их список может быть обсужден отдельно):
– статистические тесты (выявляющие экстремальные значения),
– модельные тесты (данные, которые сильно отклоняются от параметров модели считаются выбросами),
– итерационные методы (пошаговое вычисление несвойственных данных),
– метрические методы (они основаны на том, что у выброса мало соседей, а у типичных данных – много),
– методы подмены задачи (решение новой задачи известными методами),
– методы машинного обучения (сравнение данных),
– методы кластерного анализа (см. далее в разделе).
Методы, предназначенные для обнаружения выбросов, могут во многих случаях использоваться и для идентификации других аномалий.
Исключение выбросов нередко относят к предобработке данных (см. следующую статью), но это число субъективный аспект, который касается не содержания, а классификации мнений.
«Новые данные» – это данные, которые отличаются по своим свойствам от данных выборки, но, в отличие от результатов иных искажений и аномалий данных, «новых данных» в начальной выборке нет: они появляются при новых, последующих, в том числе контрольных измерениях.
«Новые данные» являются новыми потому, что о них нельзя иметь предварительных представлений, например, когда еще неизвестно, исправно ли тестируемое устройство или нет.
«Новые данные» обычно появляются в результате
– повторного изменения, например, функционирование отремонтированного устройства,
– некорректного изменения, например, функционирование испорченного устройства.
Выявление «новых данных» осуществляется за счет создания достаточно большой начальной выборки.
«Новые данные» являются существенной проблемой, особенно в обучающей выборке и для нейронных сетей, использование которых становится все более значимым для аналитики данных. Однако проблему «новых данных» на основе наук нельзя решить, ибо создание алгоритмов, которые для каждого случая могут оценить появление новых факторов и отличий от остальных или обработать очень большие объемы информации, особенно в режиме реального времени, – это весьма сложная и трудозатратная задача (в диалектике проблема «новых данных» решается на основе труда Гегеля «Наука логики», точнее – на основе его развития в рамках проекта «Наука логики – 2»).
Данные, искажаемые в силу субъективных причин (их список может быть обсужден отдельно): например, несовершенство восприятия, неправильное использование аппаратуры и т.п. Значения этих собранных данных порой значительно и даже качественно отличаются от других.
Они являются следствием ряда причин (их список может быть обсужден отдельно), в том числе
– ошибок измерений,
– присутствия данных ранее измененных выборок,
– ошибок записи данных (неточности классификации, округления, неверной записи и т.п.) и т.д.
Отсутствие и искажения данных (признаков, переменных) или их значений. Данные с пропусками признаков, переменных или их значений нельзя обрабатывать и передать в модель.
Пропуски или отсутствующие значения:
– случайные,
– зависимые (от других признаков),
– преднамеренные.
Указанные аномалии можно назвать неумышленными искажениями.
Преднамеренные вторжения – это достаточно широкий набор аномалий (их список может быть обсужден отдельно), характеризующихся появления искажений за счет умышленных действий, не редко противоправного характера. Их часто связывают со взломом компьютерных систем, но они могут быть вызваны и ошибками (например, компьютерные сбои).
В отличие от «новых данных» и выбросов, которые ожидаемы, но сравнительно редки в количественном и временном аспектах, преднамеренные вторжения характеризуются спонтанностью и большой частотой или плотностью появления в наборах данных.
Видом преднамеренных вторжений является злонамеренное использование ресурсов, например, не по назначению.
Известны и другие аномалии, искажения и ошибки данных.
Б. Если к вопросу выявления аномалий подходить с методологической стороны, то следует выделить следующие методики:
– выявление аномалий без учителя,
– выявление аномалий с учителем,
– выявление аномалий с частичным учителем.
Они достаточно подробно рассмотрены в обширной литературе.
Что касается методов выявления аномалий, то необходимо акцентировать их следующие основы, принципы и подходы (их список может быть обсужден отдельно):
– плотность распределения данных (принципы k-ближайших соседей, локального уровня выброса и др.),
– подмножество (подпространства) данных,
– корреляция данных,
– опорные вектора для одного класса данных,
– репликатор нейронных сетей,
– кластерный анализ,
– нечеткая логика.
Отдельно отметим, что эффективность различных методик и методов выявления аномалий данных зависит от эффективности и точности сбора данных, от самих данных и их параметров, от целей регламентов исследований и т.д., а сами методики и методы не имеют преимуществ друг перед другом.
Однако в связи с проблемами, имеющимися в науках и в информационных технологиях при определении и сборе данных (их список может быть обсужден отдельно, см. предыдущие статьи), определение аномалий данных и методы их выявления и исключений нельзя считать эффективными.
Единственным подходом к определению, выявлению и исключению аномалий данных может быть диалектический – основанный на новом определении данных, исключающем их относительность и субъективизм, собственно, которые и являются основными, не рассматриваемыми в науках причинами аномалий данных.
Более того, диалектический подход позволяет определить дополнительные классы аномалий данных (их список может быть обсужден отдельно), попросту не учитываемых в науках и в информационных технологиях, например, несопоставимые данные.
Несопоставимые данные – это принципиально новое положение, определенное в диалектическом программировании, которое связано с изменением реалий информационной среды и программных продуктов и с новой фундаментальной их оценкой, которую науки не могут дать.
Несопоставимые данные – это отдельный, принципиально новый вопрос, который актуален, все чаще проявляется, но не может быть пока осмыслен в науках, не изучается науками, описательной социологией, аналитикой данных, и который поэтому не может быть решен в них. В частности, несопоставимые данные не могут быть исключены известными методами (например, за счет исключения записей (строк) или замены значений).
Несопоставимые данные похожи на «текущие новые данные», но отличаются тем, что качественно отличаются в силу внешних факторов от любых данных выборки, полученных даже при разных измерениях.
Несопоставимые данные обладают игнорируемыми науками признаками (их список может быть обсужден отдельно), уже упомянутыми ранее на сайте: например,
– данные не могут не дополняться в процессе сбора, однако дополнения должны быть органичны существу объекта, а не формальным требованиям ученых и специалистов,
– количество может быть не только количественным в том смысле, в котором его понимают в науках.
Несопоставимые данные определяют одну из важнейших особенностей, присущую современному применению методов обротки данных, упущенную в обычных информационных технологиях, которая будет обсуждена отдельно.
Проблема несопоставимых данных должна решаться принципиально по-новому (это будет обсуждаться отдельно).
В. В итоге следует отметить, что проблемы аномалии данных возникли в связи с рядом ранее рассмотренных нами проблем наук и информационных технологий, в том числе следующих:
– игнорирование проблем восприятия объекта,
– ограниченное представление о данных и их качестве, которое бездумно перенесено на их типы и на представления о канонах измерений,
– отсутствие оснований и доказательств аспектов полноты, эффективности и целевых параметров сбора данных,
– необоснованное сужение предмета исследований: как мы уже отмечали, собранные данные никогда не описывают объект полностью,
– проблемы критериев сбора данных и процедур их фиксации: как мы уже отмечали, собранные данные никогда не описывают объект корректно,
– субъективность подходов к решению возникающих проблем, причем на основе уже устаревших и шаблонных представлений о мире и данных,
– скрытие проблем (по разным причинам, например, коммерческим).
И еще раз повторимся, в целом в науках и в информационных технологиях вместо исключения искажений и ошибок процессов и результатов сбора данных происходит их усугубление, и неудивительно поэтому, что усугубляются ошибочные представления о данных и возможностях их сбора.
А в диалектическом программировании исследование имеющейся в науках проблемы аномалии данных (не только самих аномалий) позволило выработать ряд мер по улучшению качества и повышению эффективности сбора и организации данных (их список может быть обсужден отдельно).
Дискуссии и конференции. Методы.