(Некоторые аспекты сбора данных.)
Некоторые критерии, позиции и процедуры фиксации данных и требования к ним.
(Настоящая статья является продолжением статьи «Критерий и порядок сбора данных».)
- 23.10.22 г.
- 9772225665000 22027
При сборе данных к нему и к ним самим должны предъявляться некие требования, которые должны определять данные (то, что нужно знать об объекте), их получение и организацию. Поэтому необходимо рассмотреть некоторые критерии, позиции и процедуры фиксации данных и требований к ним.
Во-первых, для понимания того, что собирается и как оно различается, что из себя представляет, необходимо определить характерные отличительные черты – признаки.
Признак – это некоторая общая для объектов одного класса характеристика, которая может отличаться у разных объектов класса, может иметь разные значения и т.п. Признак непосредственно связан с характеристиками объекта.
Определение признаков начинается с исходного набора данных и заключается в абстрагировании и сокращении исходного набора характеристик до приемлемых объемов – до некого устанавливаемого набора данных, остающегося при этом достаточным для удовлетворительного описания объекта и его исследования.
Определение признаков, в частности, подразумевает исключение вторичных и избыточных признаков.
В случае, когда исходные данные слишком большие, сложно структурированы, по-разному записаны и т.п., производится их сокращение. Эта процедура основывается на отборе признаков. Отобранные признаки проверяются на достаточность, что должно означать а) то, что решение задачи может быть осуществлено даже на основе уменьшенного набора данных, и б) сокращение используемых человеческих и машинных ресурсов.
Отбор признаков используются в основном при наличии большого числа признаков у сравнительно малой выборки и осуществляется в основном по следующим причинам:
– улучшение интерпретируемости данных,
– упрощение представлений об объекте,
– сокращения времени обработки и др.
Однако, как и в случае исключения или замены нехарактерных данных, выбросов (значений, намного превосходящих средние) и т.п., в науках и информационных технологиях должно было бы доказываться, что сокращенный набор данных действительно достаточен, что не теряются существенные данные, однако этого до решения задачи сделать нельзя, а само оно, в свою очередь, в таком случае не может считаться корректным. Поэтому в науках и информационных технологиях преобразование данных в их сокращенный набор – это действие, предпринимаемое от безисходности, скорее сигнализирующее о том, что решение не будет корректным.
Отдельной операцией является создание новых признаков.
Похожим на признак и связанным с ним определением является переменная, которая отражает не характеристики объекта, а способы их измерения и значения данных (ее определение и роль можно будет обсудить в дискуссиях).
Во-вторых, кроме регламентирования (общего порядка) сбора данных, что должно было бы придать ему научность, о чем говорилось в прошлой статье, вводятся на первый взгляд вполне себе логичные, но не доказанные критерии данных или их измерений:
– надежность,
– достоверность,
– завершенность,
– единственность.
Под надежностью фиксации данных обычно понимают получение при повторных измерениях одинаковых, или, по крайней мере, близких или согласующихся результатов.
Под достоверностью понимают соответствие проведения (результатов) измерений их содержанию или целям.
Завершенность предполагает, что процесс измерений завершается неким результатом.
Единственность определяет получение единственного значения переменной.
Эти критерии в целом понятны и выглядят убедительно, только вот не доказаны
а) их основания,
б) их полнота, т.е. то, что нет других,
в) их эффективность,
г) то, что они ведут к получению результата (ведь провозгласить можно что угодно, исполнять утвержденный регламент тоже можно, а вот ведет ли он к решению задачи, это уже другой вопрос).
Даже целевые параметры этих критериев не определены (их попросту нет...).
В-третьих, при сборе данных необходимо регламентировать (определить) вид (представления) данных – выбрать и стандартизировать форматы данных, что сделать относительно просто, а некоторые данные можно даже формализовать (например, цена – это число).
Вообще форматов представления данных много, им посвящено много книг и учебных пособий: это и графики, и диаграммы, и записи в том или ином виде и т.д. (их перечень может быть обсужден отдельно). Если изображения данных могут быть практически в произвольной форме, тут весь вопрос в том, как их наглядно выразить, особенно их тренды, то вот для компьютерной обработки таких форматов лишь 4: число, логическая переменная, строка, дата. Вроде бы все понятно: данные всегда можно описать словами – строкой, а если повезет – то и числом.
Но в науках и в информационных технологиях представления данных и соответственно их форматы (типы) определяются не объективно (не из понятия данных, как это делается в диалектике), ибо в науках это невозможно по причине отсутствия корректного определения данных, а субъективно, исходя из неких недоказываемых и даже порой необозначаемых соображений – просто интуитивно. К тому же для упрощения в науках была дана частная субъективная характеристика, якобы существенно упрощающая представление данных и их типы: данные могут быть качественными и количественными (числовыми). Почему мы использовали слово «якобы»? Да хотя бы потому, что, как показал Гегель, любому качеству соответствует величина (количество), да и количество может быть не только количественным в том смысле, в котором его понимают в науках. То есть представление данных в науках и в информационных технологиях существенно ограничено, и поэтому не все аспекты объекта могут быть выражены: собранные данные никогда не описывают объект полностью (даже если не принимать во внимание сущностные моменты, которые науки попросту игнорируют); тут речь идет не о неполном восприятии объекта (о чем уже говорилось на сайте) и соответственно не о неполном описании воспринятых данных, а об упущенных аспектах объекта (в диалектике вопросы определения данных и их типах решается принципиально иным образом, чем в науках и в информационных технологиях).
Однако имеющаяся в науках и в информационных технологиях указанная частная субъективная характеристика данных, существенно сужающая их представление и их типы, не корректируется, а усугубляется. В этом смысле одним из наиболее существенных искажений является понимание (и усиленное внедрение в сознание исследователей) дальнейшей конкретизации (сужения) типов данных – того, что качественные данные них могут быть двух родов: номинальными и порядковыми, а количественные – дискретными и непрерывными. При этом обычно оглашаются различные догмы: например, дискретные данные определяются отдельными значениями признака, общее количество которых может быть подсчитано (может быть очень большим, в пределе – счетным); иногда в дискретных данных выделяют ранговые (имеющие предпочтение) и т.п. Однако в науках нет конкретного понимания качественного различия дискретных и непрерывных данных: они определяются интуитивно, исходя из различия не их самих, а их субъективных характеристик, интуитивно определяемых учеными (например, непрерывность определяется через «близкие точки», очень малые интервалы, которые по своей сути дискретны), что еще более усугубляет положение дел в науках с определением данных и их сбором.
В-четвертых, возникает вопрос о том, а как можно получить более-менее однозначное представление об объекте, ибо измерения могут проводиться в общем случае по-разному? Ответ – никак. Но в науках и в информационных технологиях «выход» был найден через внедрение ограниченных представлений о типах данных в процессы их измерений!!! Это делается несколькими способами. Наиболее распространенный такой.
Данным (процессам измерения данных) соответствуют… субъективно и бездоказательно определенные шкалы измерения.
Номинальная шкала соответствует сортировке объектов (параметров) измерений некоторому признаку. Соответствующие результаты измерений не могут быть упорядочены, не могут сравниваться и с ними не могут быть осуществлены арифметические операции. Например, семейное положение человека.
Еще выделяют дихотомическую шкалу – это номинальная шкала, имеющая два значения (напр.: семейное положение человека).
Порядковая шкала определяет относительность оценки (позиций) объектов, но не величину их разницы. Это уже больше, чем идентификация, и уже можно проводить упорядочивание объектов. Например, оценка отелей или ресторанов по количеству присваиваемых им звезд.
Интервальная шкала дает представление о величине оценки (позиций) объектов, указывает ее количественное значение и позволяет получать разницу любых двух из них. Она непрерывна, имеет единицу измерения, однако в ней нет однозначной точки отсчета (нуля). Например, сравнение температур в комнате и на улице.
Относительная шкала обладает абсолютным нулем для отсчета значений, что обусловливает возможность осуществления любых арифметических операций. Например, измерение роста человека.
Последние две шкалы называют числовыми, и они позволяют работать с непрерывными величинами (данными).
Таким образом, ограниченное представление в науках и в информационных технологиях о данных и их качестве перенесено было сначала на их типы, а затем и на представления о канонах измерений.
Отдельно отметим, что это во многом определило ограниченность, негативы и несовершенство регламентов сбора данных (см. предыдущую статью) и их предметной обработки (см. следующие статьи).
Известны и другие процедуры фиксации данных и требования к ним (они могут быть обсуждены отдельно), но они не столь существенны, отражают частные аспекты и противоречивы. С ними можно ознакомиться в литературе, но для материалов настоящего Раздела они большой ценности не представляют…
Итак, при сборе данных к этому процессу предъявляются некие требования, которые должны
а) определять данные (то, что нужно знать об объекте), их получение и организацию,
б) способствовать наиболее полному и точному сбору данных.
Однако в науках и информационных технологиях
– не доказываются основания, полнота, эффективность и целевые параметры предлагаемых определений и процедур сбора данных, а также то, что они ведут к получению результата,
– не доказывается достаточность формируемого набора данных, в том числе то, что не теряются существенные данные,
– нет конкретного понимания качественного различия дискретных и непрерывных данных,
– ограниченное представление о данных и их качестве перенесено на их типы и на представления о канонах измерений,
– представления данных и соответственно их форматы (типы) определяются не объективно (не из понятия данных, как это делается в диалектике), а субъективно, исходя из неких недоказываемых и даже порой необозначаемых соображений – просто интуитивно.
Более того, в науках и информационных технологиях все эти и другие вопросы не решаются по существу – предлагаются лишь поверхностные частичные субъективные меры и регламенты, далекие от реального положения дел. Поэтому неизбежны те или иные ухищрения (их перечень может быть обсужден отдельно), которые направлены, в основном, на регламентацию получения и записи данных, их фиксации и организации в целях формализации их определенным образом для последующей обработки, хотя при этом значительно сужается предмет исследований. Однако эти ухищрения не решают возникающие проблемы и в большинстве случаев попросту скрывают их. Более того, эти ухищрения существенно искажают представления о самом объекте в силу формирования неких типовых шаблонов представлений о нем, в которые могут не вписываться реальные свойства объекта и которые обусловливают создание неких фиктивных его определений, требуемых в основном для скрытия провалов и искажений в массиве данных и для создания некой формы, позволяющей применять абстрактные методы. Иными словами, данные в науках и информационных технологиях дополняются чем-то несвойственным им, просто подводящем их под некие субъективные научные каноны и форматы их обработки.
В целом, в науках и в информационных технологиях вместо исключения искажений и сужения результатов сбора данных происходит их усугубление, и неудивительно поэтому, что практически не остается возможности получения достаточно полного и адекватного представления об объекте, но, главное, такое положение дел не исправляется!
Поэтому представление данных в науках и в информационных технологиях существенно ограничено, и не все аспекты объекта могут быть выражены: собранные данные никогда не описывают объект полностью (даже если не принимать во внимание сущностные моменты, которые науки попросту игнорируют) и поэтому предмет исследований значительно сужается.
Более того, понятно, что указанное положение дел не соответствует развитию познания. Но сдвигов в науках нет…
В диалектике понимание данных, их восприятия и обработки еще со времен Платона качественно отличалось от научного. Но для диалектики указанные выше (и другие) критерии, позиции и процедуры фиксации данных и требований к ним имеют определенную ценность, ибо содержат важную информацию, включающую ряд позиций, полученных из опыта многих людей, которая в диалектике используется не для создания новых регламентов и форм отчетности, а для исключения ошибок хотя бы в ряде случаев, т.е. используется для совершенствования гносеологии и теории информационных технологий. Например, как показал Гегель, самое парадоксальное то, что
– данные не могут не дополняться в процессе сбора, однако дополнения должны быть органичны существу объекта, а не формальным требованиям ученых и специалистов,
– количество может быть не только количественным в том смысле, в котором его понимают в науках.
Эти положения являются важными для нового понимания информационных технологий и их развития.
Дискуссии и конференции. Методы.