(Выявление и исправление ошибок в данных)
Выявление и исправление ошибок в данных, или очистка и подготовка данных.
- 20.11.22 г.
- 9772225665000 22031
1.Общие положения.
Выявление и исправление ошибок в данных, обычно называемые «очистка данных» – это процессы а) выявления ошибочных, поврежденных, неполных, неправильных, неточных, несущественных и т.п. данных и б) их исправления: удаление, замена, изменение и т.п.
Цель – улучшение качества данных, ибо очевидно, что ошибки и искажения данных неизбежны и их необходимо исправить до содержательной обработки данных – на этапе предобработки данных.
Отметим, что выявление аномалий данных как существенных искажений данных и их исключение целесообразно проводить еще при сборе данных, поэтому очистка данных – это, в основном, выявление ошибок и исправление аномалий и ошибок данных. Впрочем, в науках бытуют разные противоречие мнения и по этому вопросу…
В целях диалектического исследования процессов очистки и подготовки данных, известных и осуществляемых в науках и информационных технологиях, необходимо их проанализировать, однако их следует рассмотреть не в обычном режиме (перечислительном декларативном порядке), присущем информационным технологиям, а на основе концептуального структурирования, которое в смысле основания (по Гегелю) позволяет создать обозначенную в прошлой статье систему методов, причем в целях выявления и исправления ошибок в данных в рамках полного цикла обработки данных, т.е. в рамках информационной технологии; – такого положения, обладающего характером установленной ранее рефлективности, в науках нет и быть не может. Поэтому требуется рассмотреть хотя бы в общих чертах основу создания системы инструментов очистки и подготовки данных, – но основу не как регламентирующую методы (они определяются содержанием задачи), а как выявляющую характеристики их системы. Именно это упущено в науках, но является крайне важным (сами методы следует совершенствовать всегда, но это другой вопрос).
В целях обеспечения более четкого понимания сказанного для указываемых ниже позиций будут приводиться два ракурса их рассмотрения: научный и диалектический, а анализ их различий и пути выявления отдельных положений, характеристик и составляющих новых информационных технологий могут быть обозначены отдельно в дискуссиях.
2. Методологические положения.
В науках и информационных технологиях акцентируются в основном следующие причины ошибок и искажений данных, с которыми в целом можно согласиться:
– ограничения сбора данных, в том числе аппаратные,
– множественность источников (данные в разных источниках могут быть различными по сути или просто быть представлены по-разному),
– ошибки организации сбора,
– ошибки измерений,
– присутствие данных других выборок,
– ошибки записи данных.
Но это все позиции, обусловленные материалистическим подходом, характерным для наук. В диалектике учитываются и другие положения, связанные с сущностными аспектами предмета исследований (соответствующие причины ошибок и искажений данных могут быть обсуждены отдельно).
Более того, в науках не акцентируется ряд важнейших позиций, некоторые из которых нами были рассмотрены ранее, например, искажение собранных (осмысленных) данных сознанием.
Учет даже этих двух групп позиций существенно меняет регламент обработки и исправления ошибок и искажения данных, что определяет существенное отличие новых информационных технологий от обычных. Оно положено в основу создания новых информационных технологий и может быть обсуждено отдельно.
Основные ошибки – это отсутствие и искажения данных (признаков, переменных) или их значений:
– отсутствующие данные (например, пропуски),
– нетипичные данные (например, выбросы),
– искажения (ошибки),
– неинформативные данные (например, дубликаты),
– несогласованные данные (например, представленные в разных форматах).
В целом указанные позиции охватывают почти весь спектр ошибок и искажений данных, однако в науках не учитываются различия каждой позиции (например, отсутствие сверхчувственных определений данных, ибо науки их попросту не признают), которые существенно расширяют представления о предмете (сути) этапа предобработки данных и о требованиях к методам, но главное – требования к их системе. Понятно, что более подробное рассмотрение соответствующих деталей (они могут быть обсуждены отдельно) значительно расширяет представления о предобработке данных, что в диалектике позволяет существенно расширить и разнообразить методологический и аналитические аппараты обработки данных, и это в конечном счет дает понятие ряда характеристик новых информационных технологий и определяет их качественное преимущество над существующими (научными).
Обычно указывается, что подход к исправлению (очистке) данных должен удовлетворять нескольким требованиям: он должен
– обнаруживать ошибки и несоответствия данных как из отдельных источников, так и из совокупности нескольких источников,
– реализовываться инструментами, обеспечивающими различные виды проверок, в т.ч. вручную,
– быть расширяемым, причем как в методологическом смысле (использовать разные методы, в т.ч. новые), так и в предметно (охватывать дополнительные источники и новые знания),
– поддерживаться для любых хранилищ и видов данных,
– устранять обнаруженные ошибки и несоответствия данных.
С точки зрения диалектики необходимым является обнаружение рефлективных связей этапов и методов предобработки данных, в первую очередь для формирования системы методов, что далее обеспечит концептуальную целостность этапа предобработки данных, которая имеет громадное методологическое значение и как задача этого этапа (точнее – ее решение) и как его характеристика. Однако мысль о концептуальной целостности этапа предобработки данных напрочь упущена в науках (ее можно будет обсудить в дискуссиях).
Как правило, исправление (очистка) данных включает в себя несколько этапов:
– выявление аномалий и ошибок данных,
– анализ аномалий и ошибок данных,
– анализ процедур и порядка исправления данных и их применения, которые могут существенно различаться в разных случаях даже при обработке одинаковых данных,
– преобразование данных в требуемые форматы, обеспечивающие унификацию процессов исправления данных и возможность их осуществления на компьютерах, в т.ч. для повышения скорости проверки и обработки данных,
– непосредственно исправление данных различными методами, которое в общем случае понимается как многоэтапные и многоплановые мероприятия, включающие различные виды преобразований и анализа данных,
– итоговая проверка данных.
Однако тут следует учитывать, что в науках и информационных технологиях исправляются не данные, характеризующие объект, а информация, осмысленная и, соответственно, измененная при сборе данных. Но это в науках не учитывается, а вот в диалектике имеется требование по исправлению ошибок в первоначальных данных – в данных, определяемых объектом, а не мнением специалистов, т.е. необходимо учитывать известные, уже не раз обсужденные на сайте положения рассуждений Парменида и Гегеля (их полный перечень можно будет обсудить в дискуссиях).
При этом на каждом этапе исправления данных необходимо осуществлять ряд специальных мероприятий и операций: необходимо
– использовать программные ресурсы в дополнение к ручной проверке данных или выборок данных,
– формировать метаданные о свойствах собранных данных,
– формировать метаданные о процессах обнаружения проблем сбора и исправления данных,
– осуществлять обработку и согласование очищенных данных в смысле различных источников и в плане содержательной обработки данных,
– организовывать и хранить регламенты обработки данных и результаты их применения (в общем случае речь идет о создании отдельной информационной системы).
3. Содержательные положения.
Основные этапы проверки и исправления данных:
– общие операции,
– обработка признаков,
– общая обработка переменных,
– проверка и исправление данных (решение конфликтов данных),
– оптимизация данных.
Основные процедуры проверки и исправления данных:
– просмотр, общее ознакомление с данными,
– получение общих сведений о данных (обычно пропускается как очевидный),
– формирование списка состояний требуемого параметра,
– работа с признаками,
– унифицикация (согласование форматов данных),
– обработка категориальных переменных,
– стандартизация форматов данных,
– конкретизации (сужение) типов данных,
– проверка сочетаний исследуемых параметров,
– согласованных данных (форматов записей).
– поиск данных с пропусками признаков, переменных или значений,
– обнаружение и исправление выбросов,
– исправление неправильных значений,
– проверка орфографии,
– удаление лишних («ненужных») данных («мусора»),
– удаление дублирующих и некорректных признаков, записей или значений,
– дополнение данных, в т.ч. внесение недостающих значений,
– замена недостающих значений (строгая, нестрогая, неопределенная),
– визуализация.
4. Концептуальная обработка данных.
В отличии от наук диалектике применяется концептуальная обработка данных, которая позволяет
а) уточнять данные и выявлять их новые комплексные качества,
б) создавать новые методы,
в) создавать новую методологию, которая во многом определяет характеристики новых информационных технологий.
Примерами концептуальной обработки данных служат процедуры обработки следующих данных (их полный перечень можно будет обсудить в дискуссиях).
«Новые данные» – это данные, которые отличаются по своим свойствам от данных выборки, но, в отличие от результатов иных искажений и аномалий данных, «новых данных» в начальной выборке нет: они появляются при новых, последующих, в том числе контрольных измерениях.
Несопоставимые данные – это принципиально новое положение, определенное в диалектическом программировании и которое связано с изменением реалий информационной среды и программных продуктов и с новой фундаментальной их оценкой, которую науки не могут дать.
5. Некоторые выводы.
Отметим, что многие операции обработки и проверки данных и выявления и исправления их ошибок используются в разных методах и при решении разных задач обработки данных, что обнаруживает диалектические характеристики информационных технологий (такие, как противоречие, рефлективность), которые, однако, не учитываются науками, что резко снижает эффективность и производительность предобработки данных в обычных информационных технологиях.
Кроме того, в науках и информационных технологиях отсутствует концептуальный анализ существа выявления и исправления ошибок данных, который обычно сводится непосредственно к исправлению данных, но не к выявлению их эмерджентных свойств, а) связанных именно с возникновением ошибок и б) предельно важных для последующей содержательной обработки данных.
Более того, обычно говорится о процедурах обработки данных, но упускается их основание, которое не сводится к обозначаемым выше положениям, и их обоснование. Это серьезное упущение наук, ибо ими выявление и исправление ошибок в данных понимается как самодостаточный этап обработки данных, пусть даже учитывающий различные нормативы, порядки обработки данных и т.п., но все они основаны на поочередном применении методов, причем к тому же определяемом специалистами, а не характеристиками данных. А в диалектике практически все процедуры обработки данных рефлективны и исходят из характеристик диалектически понимаемых данных.
В завершении статьи отметим, что в ней были приведены некоторые положения критики научного понимания очистки данных и основания диалектических подходов в обработке данных, которые обусловили не только создание новых методов, отличных от научных, но и новую методологию, которая во многом определила характеристики новых информационных технологий.
Основной итог статьи – обозначение ряда положений (их полный перечень можно будет обсудить в дискуссиях), позволяющих определить направления осуществления параметризации предобработки данных и ее рефлексию в процессах новых информационных технологий.
Дискуссии и конференции. Методы.