Организация данных.
- 27.11.22 г.
- 9772225665000    22032


А. Данные могут быть организованы и должны быть организованы, что непосредственно следует и из их разнообразия, и из необходимости лучшего их понимания, и из множества процедур их обработки. Но в диалектике организация вообще данных, понимаемых и как метаданные об операциях и т.д., определяется существенно шире, чем понимаемая в науках и информационных технологиях организация собранных данных. Это положение – отдельный и весьма объемный вопрос, который требует особого подробного рассмотрения, которое будет осуществлено несколько позже.
    На данном этапе исследования данных и их обработки изучение организации собранных данных является необходимым и достаточным. Эту тему можно понимать сначала как частность общего вопроса, понимание которой приведет впоследствии к обозначению основания исследования соответствующего общего вопроса и ряда значимых выводов.

Обозначенную большую тему начнем с самого простого вопроса – с организации собранных данных. Этот вопрос в связи с обозначаемыми ниже (и другими) различиями (их список может быть обсужден отдельно) становится гораздо более объемным, чем обычно представлялся.
    Для понимания, систематизации и регламентации организации собранных данных необходимо привести наиболее существенные из ее процедур, которые хорошо известны, однако теперь они выступают в новом свете, обретают новые характеристики и возможности применения.


Б. Организация собранных данных – это многоплановые мероприятия, разнообразно описанные в многочисленной литературе, порой противоречиво, но достаточно полно, особенно для компьютерной обработки данных, поэтому мы не будем на них останавливаться подробно, а будем считать их достаточно изученными в традиционных рамках и поэтому отметим лишь некоторые из их черт и сделаем некоторые выводы, которые будут нужны для последующего изложения.

Организация собранных данных включает ряд процедур (их список может быть обсужден отдельно), из которых укажем следующие, наиболее важные для развития материалов Раздела (в многочисленной литературе понимание и содержание приводимых терминов несколько различаются):
– упорядочивание данных,
– сортировка данных,
– классификация данных.
– систематизация данных.
    Названия процедур говорят сами за себя и каждой из них посвящена обширная литература, так что нет смысла останавливаться на них подробно. Отметим лишь их основные и некоторые принципиальные моменты, важные для выводов и для развития материалов настоящего Раздела.

Как бы это не выглядело странным, но неупорядоченные данные не менее важны для проведения исследований, чем упорядоченные. Они встречаются часто, определяют большой класс задач и особенно нужны в тех случаях, когда фактор упорядочивания (например, временной фактор) не имеет значения, в частности, для сегментации. В таких случаях упорядоченность записей не нужна: требуется лишь акцентировать простое соответствие параметров и их значений (или других аспектов). Преимуществом неупорядоченных данных являются малые затраты на их подготовку к обработке, что порой очень важно. Но такие данные ненаглядны, зачастую избыточны и во многих случаях не могут быть обработаны формальными методами. Иными словами, при решении многих задач необходимо упорядочить данные по какому–либо критерию. Фактически упорядочивание данных является их простым внешним группированием, не затрагивающим содержательные аспекты данных и их совокупности. Это достаточно тривиальная процедура разделения данных на группы, обычно проводимая на основе учета лишь внешних признаков.
    Частным видом упорядочивания данных является реализация транзакций, под которыми понимается создание совокупности ряда объектов (например, действий), сгруппированных в логическое целое.

Более многоплановым видом организации собранных данных является сортировка данных в соответствии с каким-либо критерием или методом решения задач.
    Сортировка данных отличается от упорядочивания данных наличием (применением) условий и логической обработки.
    Наиболее простым видом сортировки, не использующим дополнительные операции, например, перемещение блоков данных, является группирование, более сложным – категоризация (выделение части данных).
    В силу широкомасштабного применения компьютеров особое значение приобрела сортировка компьютерных данных, которая представляет собою расположение данных в памяти компьютера в том или ином виде согласно установленному правилу, параметру.
    Эффективность и в тоже время посылки сортировки данных можно рассматривать с точки зрения ряда условий, положений, требований:
– время сортировки,
– объем памяти, требуемой для сортировки,
и др.
    В целом различают следующие методы сортировки (с ними можно ознакомиться в многочисленной литературе):
– строгие (прямые) методы,
– улучшенные методы.
    (Критерии, виды и методы сортировки данных могут быть рассмотрены отдельно, если у пользователей возникнут предложения по этому вопросу.)

Более сложным, концептуальным видом организации собранных данных является классификация данных.
    Обычно классификация понимается как смысловое и даже целевое деление совокупности (данных) по определенному признаку, критерию, когда исходный объем делится на части, и они, в свою очередь, могут делиться далее и т. д.
    Классификация может пониматься как определение некоторой структурированной совокупности объектов, данных, как своего рода простая, например древовидная, систематизация по некоторому признаку, как создание совокупности последовательностей, групп, классов объектов, которые обладают определенными свойствами, которые характеризуют объекты.
    Классификация сложнее упорядочивания, поскольку имеет а) смысловую нагрузку, а не является просто соблюдением критериев, и б) некоторую нетривиальную систему действий.
    Классификацию можно будет обсудить отдельно, причем с разных ракурсов: и в смысле различия ее диалектического и научного пониманий и в смысле учета содержательных аспектов (именно поэтому классификация часто и обоснованно относится к содержательной обработке данных).

Наиболее концептуально развитой операцией организации собранных данных является систематизация, которой посвящено достаточно много литературы, поэтому отметим лишь то, что она позволяет сводить воедино результаты компоновки данных и даже отдельных процедур (например предобработки данных) и исследований, но не просто ради группирования или классификации этих результатов, а в целях получения более полных, системных и даже новых сведений (знаний). То есть систематизация понимается и в смысле системной компоновки данных и как завершающий этап обработки данных или ее отдельного этапа, но это уже отдельный вопрос.

Известны и другие операции и методы, которые могут использоваться для организации собранных данных, например, упомянутое в прошлой статье преобразование данных в требуемые форматы («Выявление и исправление ошибок в данных»), которое, как было сказано, обеспечивает унификацию процессов исправления данных и возможность их осуществления на компьютерах, в т.ч. для повышения скорости проверки и обработки данных. На первый взгляд, речь идет об исправлении данных. Да, это так, но исправлять данные можно в смысле как исключения ошибок, например, невозможных или отсутствующих значений, так и восстановления требуемого для компьютерной обработки порядка данных по некоторому признаку (например, алфавитного порядка фамилий опрошенных людей).

Существенны и другие положения (их полный перечень может быть приведен и обсужден отдельно).


В. Обобщая изложенное можно сделать ряд выводов, принципиально новых для наук и ради которых и была подготовлена настоящая статья.

Во-первых, как оказывается, в науках и в информационных технологиях слабым местом всех процедур организации собранных данных является то, что все они в большинстве случаев не только осуществляются в отношении не известно чего – корректно не определенных данных («Причины неопределенности данных»), но и по существу внешни этому неизвестному, не затрагивают его (неопределенную) суть, т.е. фактически не могут быть корректно осуществлены сами и не могут дать адекватное представление о собранных данных. Поэтому приходится говорить о некоторых допусках, в частности, об отсеивании «лишних» данных (например, пиковых, значительно превышающих усредненные), которые могут быть совсем не лишними, и проч., т.е. об имеющихся в науках и информационных технологиях проблемах сбора и организации и представления данных.

Во-вторых, в науках и информационных технологиях отсутствует концептуальный анализ существа выявления и исправления ошибок данных, поэтому отсутствует концептуальный анализ (исследование понятия) свойств и организации данных, именно который и должен выявлять эмерджентные свойства и особенности данных и процедур их исправления и организации (их полный перечень может быть приведен и обсужден отдельно).

В-третьих, обычно организация собранных данных происходит не только внешним образом, но и согласно устанавливаемым для них неприсущим им порядкам, принципам, и вот именно это является наиболее существенным недостатком организации данных, осуществляемой в науках и информационных технологиях, на что следует обратить особое внимание (в первую очередь, для чего и были выше приведены основные научные представления об организации данных).

В-четвертых, в науках и информационных технологиях обычно упускается основа (не причина и не базис) организации данных, общая для всех процедур организации данных, а не только присущая каждой из них или их отдельной группе. Тут, кстати, также выявляется разделение и группирование характеристик организации данных – своего рода организация организации данных, что является важным гносеологическим положением, обычно упускаемым в науках, однако активно используемым в диалектике

В-пятых, необходимо учитывать очевидный факт, обычно упускаемый в науках и информационных технологиях: операции обработки и проверки данных и выявления и исправления их ошибок используются в разных методах и при решении разных задач обработки данных, что связано с диалектическими по своей сути характеристиками информационных технологий, обычно игнорируемыми науками, что резко снижает эффективность и производительность предобработки (и содержательной обработки) данных в обычных информационных технологиях. При этом одни и те же процедуры организации данных по-разному используются в разных методах и при решении разных задач обработки данных, что определяет некоторые критерии организации данных, и это должно учитываться при их исследовании и использовании (это будет обсуждено отдельно в дискуссиях).

В-шестых, процедуры и алгоритмы организации данных нельзя понимать как самодостаточные действия, осуществляемые в ходе обработки данных, пусть даже учитывающие все установленные нормативы, порядки подготовки данных и т.п. Они системны и рефлективны, и такое их понимание качественно отличает диалектическую организацию данных и систему ее процедур от применяемых в науках и информационных технологиях.

Существенны и иные положения, которые необходимо учитывать при исследовании процедур и алгоритмов организации данных (их полный перечень может быть приведен и обсужден отдельно).


Г. В предыдущей статье при обсуждении операций проверки данных и выявления и исправления их ошибок (очистки данных) неявно было произведено разделение объема первоначального множества положений и признаков этих операций на некоторые группы, подмножества. Фактически была осуществлена группировка (организация) положений и признаков, характеризующих очистку данных. В целом это понятно – без выделения тех или иных положений и признаков нельзя в полной мере понять, что и как следует исследовать.
    Как было показано, положения и признаки, характеризующие очистку данных, могут иметь системный характер или случайный характер, определяться как непосредственные (независимые), так и в увязке с некоторыми внешними характеристиками и позициями (например, целями), пониматься как в исходном виде, так и после некоторых трансформаций (например, группирования) и т.п. Это наглядный пример того, что признаки очистки данных могут быть тем или иным образом организованы; это очевидный факт, но имеющий важное гносеологическое значение.
    В связи с обозначенными выше положениями выявляются критерии (которые, как будет показано позже, являются системными), позволяющие качественно различать даже сравнительно простую организацию собранных данных, понимаемых в широком смысле.
    При этом организация положений, признаков и критериев очистки данных, понимаемых как данные, главное, определяет вывод о том, что организация данных может пониматься, характеризоваться и осуществляться по-разному.

Однако и само выделение тех или иных положений и признаков может быть упорядоченным или нет, упорядоченным по одному или нескольким признакам и т.п.
    Процедурам и алгоритмам организации данных присущи те же особенности, что и процедурам обработки данных, причем на разных ее этапах.
    В итоге организация данных понимается, по крайней мере, в диалектике как весьма разнообразный процесс, характеризующийся рядом установок и распространяющийся как на объекты (например, данные), так и на их характеристики и результаты их исследования.
    Указанное положение качественно отличает диалектическую организацию данных и систему ее процедур от применяемых в науках и информационных технологиях.

Обозначенное многоаспектное понимание организации данных не только расширяет понятие обработки данных, но и именно в силу охвата более широкого спектра понятий определяет новые операции и методы, которые могут осуществляться в отношении как данных, так и инструментов и результатов их обработки, что значительно расширяет функциональные возможности обработки данных в диалектике (в диалектическом программировании) и позволяет формировать принципиально новые представления об информационных технологиях.
    Иными словами, в диалектическом программировании понимание организации данных намного шире, чем в науках и информационных технологиях (это отдельный вопрос, который может быть обсужден отдельно).

На основе обобщения и исследования указанных выше положений оказывается возможным создание методологии организации данных, которой в науках нет (ее можно будет обсудить позже).
    Ее основой являются понимание, систематизация и регламентация организации данных.
    Одними из ее основных положений являются следующие:
– концептуальный анализ существа выявления и исправления ошибок данных как инструмент создания новых данных,
– системность и рефлективность процедур и алгоритмов организации данных,
– последовательное развитие понятия организации данных, различаемого по видам данных и операций,
– критерии и различия организации собранных и новых данных.
    По сути, именно эти положения определяют возможности широкомасштабного изучения организации данных и развития информационных технологий, обусловленные диалектическим рассмотрением организации данных.
    Развивая рассуждения, методологию организации данных можно более подробно детализировать (это можно будет обсудить позже).
    Более того, можно сделать ряд выводов и определить ряд положений, способствующих существенному развитию информационных технологий и созданию новых информационных технологий, которые являются целью диалектического программирования.

Итак, в диалектике предстает совсем в ином свете понятие организации данных, только с виду одинаковое с научным и использующее практически те же термины. И поэтому даже такой на первый взгляд простой вопрос, как организация данных, при его диалектическом рассмотрении позволяет сделать существенные выводы, невозможные в науках и обеспечивающие возможности широкомасштабного развития информационных технологий.

 

 

Дискуссии и конференции. Методы.