Предобработка данных: концептуальное позиционирование.
(Настоящая статья является продолжением статьи «Критерий и порядок сбора данных».)
- 06.11.22 г.
- 9772225665000    22029


1.Предметные положения.


А. В двух предыдущих статьях было определено, что для понимания и предметной обработки данных необходимо осмыслить их признаки и форматы и их организацию (см. «Некоторые аспекты представления данных»), причем их нужно обязательно проанализировать на предмет искажений: выявить понятие и суть искажений данных, или аномалии данных (см. «Аномалии данных»).
    Иными словами, необходимо осмысление собранных данных.
    Теперь надо понять, что делать с собранными данными, но не столько в методологическом смысле (это отдельный вопрос, который будет изучаться далее), сколько концептуально.
    Фактически это еще одно из требований к сбору данных и их представлению, упущенное в науках и которому посвящена настоящая статья, являющаяся как логическим продолжением, в основном, указанных выше предыдущих трех статей, так и одной из основ исследования информационных технологий и изложения последующих материалов сайта.

Необходимо учитывать два положения.
    Первое, объективное, общеизвестное. При сборе данных происходит их изменение: пропуск и искажение данных, возникновение недопустимых значений или даже отсутствие значений и др. В случае содержательной обработки таких данных, особенно формальными методами, которые все более заполоняют информационные технологии, можно получить неверные результаты. Поэтому до содержательной обработки данных их следует проанализировать и скорректировать.
    Второе, субъективное, осмысленное только в диалектике. Необходимо понять, что делать с собранными данными. Вроде бы очевидное и понятное положение, но возможно именно в силу своей простоты оно недооценено в науках и в информационных технологиях. В целом и так понятно, что, как уже было сказано, до содержательной обработки данных их следует проанализировать и скорректировать. Это со всей очевидностью следует из эмпирического опыта и понятий здравого смысла, но именно в этом-то и загвоздка. Дело в том, что это, по сути, эмпирическое положение, обусловлено очевидным фактом, ибо понятно, что данные не могут быть собраны полностью и безошибочно, и поэтому с ними что-то надо делать. Но таково первое положение, а второе обозначает другую проблему, которую науки так до сих пор и не рассматривали. Проблема состоит в том, что собранные данные должны пониматься не только так, как обычно: как некие записи, цифры и т.п., но еще и категориально, – как некая внерассудочная сущность, требующая дополнительного рассмотрения, специфического отношения к себе и особого позиционирования. Понимание этой проблемы невозможно в науках и информационных технологиях в силу некорректного определения данных в них. А вот в диалектике понимание данных (см. ДАННЫЕ) приводит именно к указанной выше постановке вопроса: необходимо понять, что делать с собранными данными? – ибо их исправление, это не единственный вариант развития событий. Или: что по существу из себя представляет то, что обычно называют предварительной подготовкой данных (предобработкой данных)? – так как все дело в том, что предобработка данных не сводится к изменениям данных, а имеет еще ряд принципиально важных концептуальных аспектов (их перечень может быть приведен отдельно), которые подлежат отдельному обсуждению.


Б. Обычно считается, что предварительная подготовка данных (предобработка данных) – это термин, обобщающий, по сути, все действия, осуществляемые с собранными данными перед их содержательной (предметной) обработкой (анализ, исследование…). Поэтому предобработка данных – это достаточно общий и многоплановый процесс, но так как той или иной обработки данных перед их предметной обработкой избежать нельзя, то он имеет (включает) противоречие (являющееся следствием противоречия информационных технологий). Именно оно обусловливает то, что предобработка данных (и, следовательно, информационная технология в целом) не сводится только к изменениям данных, а имеет еще ряд концептуальных аспектов (речь идет не про аппаратные средства, организационные меры, программное обеспечение и методы), которые оказываются принципиально важными, но не известными наукам, имеющим ограниченный материалистический познавательный аппарат. Науки не могут познать существо противоречия и ряда концептуальных аспектов предобработки данных, по сути, информационных технологий, поэтому науки не могут понять существо информационных технологий, которые необходимо переосмыслить и определить заново.
    Концептуальные аспекты, определяющие информационные технологии, подлежат отдельному обсуждению.


В. В целом обработка вообще данных, согласно наукам и информационным технологиям, включает в себя следующие этапы:
- сбор данных,
- предобработка данных,
- содержательная (предметная) обработка данных.
    При этом более детально определяется ряд положений, обычно указываемых в литературе при описании каждого этапа, однако значительно разнящихся по количеству и в существе их определений и последовательности применения.
    Для исследования указанных выше вопросов и получения общей картины обозначенной проблемы необходимо указать следующие положения, признаваемые всеми специалистами и к которым обычно сводится понятие предобработки данных:
- общее ознакомление с данными,
- выделение и отбор признаков,
- нормализация данных,
- очистка данных,
- оптимизация данных,
- проверка и исправление данных (решение конфликтов данных),
- статистическая обработка данных,
- исследование мультиколлинеарности (частичной коллинеарности, хотя этот вопрос, по логике, должен относиться к содержательной обработке данных),
- визуализация данных. 

Все эти положения (и ряд других) были выявлены и апробированы в череде многих реализаций информационных технологий, их отдельных этапов и методов.
    Их перечень очевиден.
    Но он не является полным, исчерпывающим (это вопрос отдельного обсуждения).
    Более того, он содержит ряд парадоксов: например, статистическая обработка данных, их систематизация и визуализация присущи не только предобработке данных, но и другим этапам информационных технологий (сбор данных и их содержательная обработка). Вроде бы незначительный акцент, однако с учетом противоречия он определяет значимое свойство информационным технологий, которое подлежит отдельному обсуждению.   


Г. Рассмотрим некоторые упущенные в науках аспекты обработки данных, основания и атрибуты информационных технологий.

Уже обозначенные нами на сайте несопоставимые данные (это не искажения и не случайные объективные аномалии) не могут быть идентифицированы на основе наук и обработаны известными методами и вообще составляют принципиально новый вопрос, который связан с изменением реалий и с фундаментальной их оценкой, которую, как уже отмечалось, науки не могут дать (этот вопрос можно обсудить отдельно).
    Они принципиально меняют представление об анализе и обработке данных и составляют понятие упущенной в обычных информационных технологиях особенности, присущей современному применению диалектических методов обработки данных.

В диалектике особенности определения и изучения данных и процессов их обработки приводят к пониманию того, что предобработка данных и, следовательно, информационные технологии в целом, во-первых, имеют противоречие, во-вторых, не сводятся к изменению данных, и, в-третьих, характеризуются рядом концептуальных аспектов.
    В частности, предобработка данных имеет свои этапы, общее представление о которых будет дано в последующих статьях.

В целом диалектическое определение данных и их обработки (изменения) позволяет изучать процессы информационных технологий на основе определяющей рефлексии, являющейся весьма весомым и эффективным инструментом диалектического познания, правда, отвергаемым научным познанием.


Д. Отдельному обсуждению подлежат не известные в науках основания и атрибуты информационных технологий.

 

2. Дискуссионная часть.

а. Обозначение исходных, предметных и целевых положений обсуждений предполагается осуществить в начале предметных дискуссий.

б. Для предметных дискуссий в рамках Академии диалектики и диалектической философии  предоставляются ссылки на дополнительные материалы.

в. Вопросы, предложения, сообщения и т.д. можно присылать на сайт через Контакты, а также на различные вспомогательные и дополнительные ресурсы сайта.

г. Для новых пользователей и для новых ветвей обсуждений могут быть созданы дополнительные дискуссионные площадки; заявки и предложения присылать через Контакты.

 

Дискуссии и конференции. Методы.