Часть 1.

Критерий и порядок сбора данных
.
- 16.10.22 г.
- 9772225665000    22026


Начнем статью с напоминания о том, что данные в науках и в информационных технологиях корректно не могут быть определены (см. «Причины неопределенности данных»). При этом в целях исследования методов, для определенности, примем одно из известных в науках определений данных: данные – это результаты наблюдений (опросов и т.п.). Оба понятия – результат и наблюдение – обычно принимаются интуитивно: как бы все знают, о чем речь. При этом также всем известно, что все понимают всё по-разному, не говоря уже о том, что само восприятие не только не совершенно, но и у всех различно, а порой и попросту относительно и даже ошибочно (см. «Диалектическое основание определения данных»)…
    В науках и в информационных технологиях данные не могут быть не только точно определены, но и однозначно восприняты, поэтому не могут быть корректно собраны. Однако это не афишируется и имеются лишь догадки по этому поводу и определенные опасения. Правда, они выражены не в формулировке вопросов о причинах и сути такого положения дел и о соответственном решении проблем, а в обозначении а) частных феноменов, характеризующих осуществление и искажение восприятия данных, и б) положений (правил), которыми… следует руководствоваться при сборе данных. Так как первые нами уже были обсуждены в достаточной мере, то в настоящей статье остановимся на некоторых моментах (организации) сбора данных.
    Перед тем как их обсудить, отметим, что акцентируемые ниже (в данной и ряде последующих статей) позиции служат не описанию известных из многочисленной литературы положений, правил и процедур сбора данных, а обозначению а) ряда существенных моментов, в первую очередь тех, которые упущены в науках, и б) некоторых вопросов, которые подлежали решению в диалектическом программировании и при разработке новых информационных технологий. При этом в настоящей статье мы рассмотрим лишь общие регламентирующие позиции сбора данных, которые, несмотря, на первый взгляд, на строгую упорядоченность и научность, наглядно характеризуют научные проблемы сбора данных и поэтому имеют определенную методологическую ценность, по крайней мере, для диалектики.
    Ниже в статье (и в последующих статьях) мы будем не только акцентировать некоторые известные из многочисленной литературы положения сбора данных, но и указывать их как моменты а) основы критики научных представлений и б) развития диалектических рассуждений: именно в этом суть перечисления ниже ряда всем известных положений; фактически – это начала новых рассуждений об информационных технологиях, или моменты начал новых информационных технологий.


А. В науках главным критерием (исходным постулатом, но, по сути, лишь лозунгом) сбора данных является утверждение о том, что необходимо получить корректную (репрезентативную) выборку, поскольку изучить (полную) генеральную совокупность слишком долго и затратно, практически невозможно.
    Иными словами, речь идет о том, что в науках и в информационных технологиях открыто признается (но не осмысливается и не исправляется!) то, что берется некоторая выборка данных, причем без гарантий а) достоверности получения ее самой и б) отражения ею реального положения дел, – то, что обычно собираются неполные данные, или не-данные. Поэтому, по существу, выборку в общем случае трудно назвать актуальной, репрезентативной (в диалектике используется другой подход). Впрочем, это и так было понятно из диалектической критики определения данных в науках и в информационных технологиях (Раздел ДАННЫЕ), но в науках замалчивается. На самом деле, как будет показано ниже, в науках к указанному, на первый взгляд, логичному постулату о корректной выборке привели проблемы с определением данных и соответственно критериев их сбора, но именно это не признается, что приводит к ошибкам при выполнении информационных технологиях. А вот в диалектическом программировании указанный научный, но так до сих пор и не обоснованный постулат (в силу его кажущейся очевидности) обусловил соответствующие осмысления и соответственно подход к одному из начал новых рассуждений о диалектической обработке данных (фактически, о новых информационных технологиях), фактически – к началу новых информационных технологий, и о нем можно будет поговорить отдельно при желании пользователей сайта.
    Таким образом, в науках и в информационных технологиях вопрос сбора данных сводится к получению репрезентативной выборки, точнее – в науках не решаемая в целом проблема (в том числе и в силу принципиального отсутствия в науках и в информационных технологиях возможностей сбора данных хотя бы по причине игнорирования сущностных положений, например, сверхчувственных определений) подменена якобы корректно решаемой задачей много меньшего объема и характеризуемой рядом формальных позиций, позволяющих проводить компьютерную обработку данных.
    Однако, как будет показано в этой статей и ряде последующих, во-первых, в науках и в информационных технологиях нет еще критериев, не то, чтобы доказывающих, а хотя бы просто показывающих возможность корректного описания объекта.
    Во-вторых, выборка – неполные данные – это не данные.
    В-третьих, данные еще более усекаются в ходе сбора, формализации и предобработки.
    В-четвертых, введение формальных позиций при сборе данных, причем прежде всего при их восприятии и представлении, еще более ограничивает и усекает получение и понимание объекта (этому будет посвящена следующая статья), но это игнорируется в науках.
    Иными словами, в науках и в информационных технологиях данные не могут быть корректно не только определены, о чем уже был разговор, но и собраны и подготовлены к обработке (в настоящей и ряде последующих статей речь пойдет об этом положении).

Для исправления указанного критичного положения дел в науках используется субъективное представление о порядке сбора данных – фактически договоренность, позволяющая стандартизировать представления о сборе данных и их получаемых форматах, чем якобы уменьшается разнобой и что принимается за критерий корректности сбора данных (но проблема при этом не решается, так как договоренность относится к людям, а не к объекту, не к данным и процессу их сбора).


Б. Для сбора данных актуальна более-менее строго определенная совокупность действий, которые следует предпринять, согласно наукам, для получения удобоваримого описания предмета. Ниже приводятся основные этапы сбора данных и их подготовки к предметной обработке (дается некоторое обобщение анализа научных источников), но, конечно же, они могут изменяться в зависимости от задач и условий.

Первым этапом (положением, пунктом) является создание некоторого представления об изучаемом объекте, на основании которого этот объект будет изучаться в более-менее регламентированном порядке, позволяющем согласовывать действия специалистов, не упускать важные позиции и т.п.
    Это – уже фактически сбор данных, который имеет противоречие, так как осуществляется в целях сбора данных, и эта проблема не только не решена в науках, но и не обозначена.
    На указанном этапе выбираются и согласовываются категории, инструменты исследований и т.д., дается определение реальных и предполагаемых изучаемых феноменов, описание предполагаемых данных и их обработки, получаемого результата как некоторого итога работы на первом этапе. Иными словами, первый этап – это подготовительный этап.
    Часто говорится, что на этом этапе создается модель изучаемого предмета, которая будет положена в основу исследований. Однако модель предполагает знания о предмете, а не предварительные представления, что еще раз акцентирует указанное выше противоречие, и этот факт обычно опускается – представленное принимается за действительное, и в силу этого говорить о соответствии модели предмету некорректно, что игнорируется в науках. Более того, понимание первичных представлений в качестве модели часто приводит к ошибкам, так как общие относительные неполные представления становятся принципами и отправными точками исследований, заранее обрекая их на относительность и неточность. Но это в науках игнорируется, что и приводит к ошибкам.
    В диалектике под моделью понимается систематизированные данные, относящиеся, используя научный термин, уже к аналитической статистике, – к достаточно хорошо изученному объекту. Так что понятие моделей в науках и в диалектике существенно отличаются, не говоря уже о форматах получения данных и их структурирования.

Вторым этапом является операционализация понятий, заключающаяся в переходе от категорий и теоретических понятий к параметрам и конкретным переменным, которые могут иметь значения и быть измерены. На этом этапе анализируются характеристики объекта и его параметров, определяются их диапазоны, на основе чего формируются представления о предмете исследований, совокупность которых с большей степенью корректности можно назвать моделью, но даже на этом этапе еще не выявлена структура объекта – система параметров (и тут обнаруживается существенная ошибка наук и информационных технологий, ибо игнорируется природа и системность параметров).
    На этом этапе определяются зависимые и независимые переменные: зависимые переменные изменяются из-за некоторых факторов и причин, которые называются независимыми переменными. Однако следует учитывать, что переменные изначально не являются зависимыми и независимыми, таковыми они определяются лишь в ходе определения целей исследований, создания первичного описания и формирования гипотезы, и в различных случаях они могут пониматься по-разному. Но этот факт относительности и даже преждевременности определения качества переменных в науках методологически не учитывается, и обычно методы, разрабатываемые для исследования одних процессов, учитывающие опорные, смысловые переменные как зависимые или независимые, в других случаях используются в противоположном смысле, что не может не давать качественное искажение в исследованиях других процессов (в диалектике этот вопрос решен за счет известного диалектического положения, уже упомянутого на сайте).

Третьим этапом является формирование гипотезы и предположений о ее переменных: создание системных представлений о наборе параметров генеральной совокупности, об объекте в его функциональном представлении. Однако это еще не модель в ее корректном, полном, системном понимании, так как нет структурного представления объекта и понимания закономерностей его существования.
    Обычно гипотезой считается предположение о влиянии определенных факторов на исследуемый процесс. Однако при этом указывается, что их зависимость (функция) значения не имеет (науки вынуждены исключить этот важный момент, так как не обладают инструментами его фиксации и исследования, что также приводит к ошибкам при исполнении информационных технологий). 
    Гипотеза является важным инструментом исследований, так как на ее основе могут быть проверены предположения об объекте на базе имеющихся о нем данных, однако все это относительно в связи с субъективностью и неполнотой гипотезы, ибо на самом деле, она – это плод фантазий, а не существо объекта исследований; этот факт в науках также обычно опускается – представленное принимается за действительное, и поэтому говорить о соответствии предположений и проводимых на их основе исследований предмету некорректно. Иными словами, понимание субъективных представлений в качестве гипотезы часто приводит к ошибкам.
    В диалектике речь идет о более глубоких представлениях о существе начала исследований, это положение было определено еще Платоном. Кроме того, в диалектике используется понятие содержания. И, наконец, в диалектике, кроме внешних факторов учитываются внутренние, сущностные, а также различение данных.

Четвертым этапом является обозначения цели и планирование исследований. Обычно планирование начинается с определения цели исследований, которой должно быть подчинено все исследование, то есть оно не должно просто иметь отношение к возникшей проблеме, быть случайной попыткой решить ее путем непосредственного, по сути, спонтанного, нецелевого осуществления некоторых действий, пусть даже выглядящих логичными и основанными на опыте.
    План включает множество позиций, и хотя в разных источниках он определяется по-разному, однако во всех говорится о следующих моментах: это определение
– объекта исследования – его четкое выделение и описание,
– подходов к определению выборки (например, вероятностный и детерминированный),
– структуры, объема и других параметров выборки,
– последовательности действий, из которых наиболее существенными являются относящиеся к работе с данными (три из них будут акцентированы ниже),
– путей принятия решения.
    Относительно планирования следует сделать два существенных замечания.
    Во-первых, планирование часто игнорируется, пропускается – имеется в представлении исследователей как очевидная совокупность действий, подменяется декларированием желания достичь цели, что часто обрекает исследования информационных технологий на провал: и так не имея четкого начала (гипотеза относительна), исследования к тому же не получают обоснование, так как реализуются на как бы очевидных посылках и действиях, которые на самом деле могут быть искажены.
    Зачастую исследования информационных технологий не имеют основания и направлений, которые должны определяться как раз планом.
    Во-вторых, при всей необходимости планирования следует отметить, что оно осуществляется в условиях неопределенности – когда еще нет четких представлений об объекте исследований и поэтому об их существе.
    В итоге планирование часто представляет собою просто некоторый приемлемый порядок действий, обычно определяемых из перечня ранее установленных эмпирическим или иным путем, чего крайне недостаточно.
    Также часто игнорируется постановка цели, которая заменяется общим представлением о чем-то желаемом.
    Иными словами, в информационных технологиях уже на этапе обозначения цели и планирования проявляются субъективность и случайность, о которых уже говорилось и которые на этапе планирования должны быть хотя бы зафиксированы и учтены, но этого не делается.
    А в диалектике указанные и другие негативы обозначения цели и планирования (их перечень может быть приведен отдельно) исключаются за счет ряда действий, в том числе указанных выше: осуществляется определение начала исследований, их содержания, отражающего сущностные аспекты предмета исследований, и внутренних, сущностных факторов.
    Следует также отметить, что планирование часто просто невозможно в силу неопределенности объекта или деталей задачи, поэтому к нему необходимо возвращаться в целях уточнения и коррекции даже после осуществления последующих этапов, но это обычно игнорируется.

Пятым этапом является определение и уточнение условий и способов сбора (получения) данных. Это достаточно многоплановая позиция, к тому же многими понимаемая по-разному (полный перечень позиций может быть приведен отдельно). Поэтому выделим лишь два положения, достаточных для настоящей статьи, ибо они дают представление об этой позиции и многими понимаются более-менее одинаково.
    Первое касается данных и включает
– анализ доступности данных,
– анализ источников данных, в том числе их открытость,
– определение мест, времени и порядка сбора данных,
– оценку объема данных,
– выяснение условий сбора нужных (например, необходимость покупки),
– оценку стоимости сбора нужных.
    Второе касается персонала и включает
– подбор персонала,
– определение требований к персоналу, обучение и инструктаж,
– обеспечение квалифицированного и качественного выполнение функций персоналом,
– создание системы стимулирования персонала.

Шестым этапом является непосредственный сбор данных. При всей очевидности и в целом понятности этого этапа он обладает рядом черт, которые в целом известны, но которым не уделяется должного внимания.
    Во-первых, очевидно, что сформировать модель и гипотезу без данных невозможно, поэтому сначала данными следует считать первичный образ предмета исследований, фактически неопределенную совокупность некоторых явлений, которая уточняется в процессе восприятия, как-то понимается, и это происходит с учетом предыдущих позиций. Сказанное для наук очевидно, но концептуального значения не имеет, а вот для диалектики имеет и определяет один из самых значимых факторов обработки данных, о котором можно будет поговорить отдельно в дискуссиях.
    Однако, это в общем случае еще не обработка данных, но уже и не просто их фиксация, как было на предыдущих этапах. Фактически имеет место еще один сбор данных, осуществляемый после сбора данных, предназначенных для оценки возможности сбора данных об объекте, – таков удел информационных технологий. Это один из парадоксов информационных технологий, точнее – последствие того, что в науках и в информационных технологиях данные не могут быть корректно не только определены, но и собраны, ибо именно отсутствие представлений о данных ведет к случайным попыткам собрать их, однако… в определенной форме, о которой в науках нет представлений, а есть лишь представления о субъективных и относительных формах записи…
    Во-вторых, несмотря на еще некоторую общность данных, уже должны выполняться вполне конкретные требования к выборке (их перечень может быть приведен отдельно), в первую очередь, следующие:
– данные должны собираться таким образом, чтобы характеризовать генеральную совокупность,
– должны учитываться условия и возможности получения репрезентативной выборки.
    В-третьих, при сборе данных должны соблюдаться определенные при планировании условия и способы сбора (получения) данных. В первую очередь
– должны учитываться разные факторы: условия, объем, стоимость, варианты и сбора данных,
– должны соблюдаться принципы сбора данных (о них речь пойдет в следующей статье),
– данные должны собираться по возможности разными способами: интервью, анкеты, наблюдения.
    В-четвертых, необходимо использовать самые разнообразные форматы сбора данных, в том числе
– эксперимент,
– экспертная оценка,
– имитация (метод сбора данных на основе математической модели, воспроизводящей поведение исследуемых объектов),
– проведение дополнительных предметных исследований.
    В-пятых, должна осуществляться организация данных.
    Существенны и иные аспекты сбора и обобщения данных (их перечень может быть приведен отдельно).
    При этом в науках и в информационных технологиях практически не учитываются, не анализируются и тем более не исправляются недостатки, присущие указанным действиям, причем несмотря на то, что эти действия стали практически хрестоматийными, вошли во все учебные курсы и тренинги, должны были быть досконально проанализированы и т.д. (В частности, не учитываются фундаментальные положения, акцентированные еще Платоном и Гегелем, например, то, что в процессе восприятия объект меняется и что сознание меняет представление об объекте).
    Анализ научных положений сбора данных и их критики предопределяет
 а) ряд выводов, которые важны для осмысления и исследования обработки данных, например, уже сделанный выше вывод о том, что данные в науках и существующих информационных технологиях не могут быть корректно не только определены, но и собраны,
 б) неизбежность исправления ошибок, что ведет к созданию фактически нового понимания и регламента сбора данных, что и осуществляется в современной диалектике и ведет к созданию новых информационных технологий.

Седьмым этапом является предобработка данных, включающая проверку данных и исключение ошибок.

Восьмым этапом и вместе с тем самым значимым положением является первичная предметная обработка данных: применение статистических методов, причем в науках обычно утверждается, что это делается для описания данных, их общей обработки и визуализации, для оценки выборки, для проверки гипотезы и т.д.
    Данный этап также является весьма многогранным, он достаточно хорошо описан в литературе, поэтому нет надобности его подробно рассматривать, и мы акцентируем лишь два его аспекта:
– интерпретация данных,
– проверка гипотез.
    Однако следует понимать, что этот этап весьма критичен, так как в информационных технологиях применение методов заявляется без выяснения возможности и обстоятельств этого, и даже не подвергается критическому рассмотрению возможность применения конкретных методов к собранным данным, ибо оно осуществляется только в силу понимания учеными и специалистами того, подходит ли метод (обычно математический) к формально представленным данным или нет. Обычно абстракция позволяет обрабатывать математическими методами практически любые данные, поэтому можно получать любые интерпретации обработки данных, что ведет к неоднозначностям и ко многим заблуждениям, тем более с учетом того, что науки не могут строго выделить рациональное зерно (сущность) имеющегося положения дел и обосновать получаемые результаты (это, как отдельный принцип исследований в диалектике, составляет отдельное положение и его можно будет обсудить в дискуссиях).

Последним этапом, итогом рассмотрения (регламента) сбора данных являются обобщения и выводы (в данном случае по поводу сбора данных, а их предметная обработка – это последующий вопрос, который, однако, в информационных технологиях часто отождествляется со сбором данных). Понятно, что это самый общий и неопределенный пункт, поскольку нельзя заранее представить себе, какие будут собраны данные и что может получиться в результате применения абстрактных методов к конкретным данным. (А вот в диалектике этот пункт достаточно конкретизирован, ибо является, фактически, итогом трансформации собираемых данных, и для его осуществления существуют определенные форматы и критерии, о чем можно будет поговорить в дискуссиях).

Каждую позицию сбора данных можно будет раскрыть более подробно и обсудить отдельно, если понадобится произвести уточнение при изложении материалов Раздела или если будут пожелания пользователей.


В. Обобщая рассмотрение темы сбора данных в науках и информационных технологиях, сделаем следующие важные замечания (выводы).

Даже указанные немногочисленные позиции показывают, что процесс сбора данных не сводится только к их получению, накоплению и организации, которые обычно и понимаются под сбором данных. Нет. Принципиально важными являются планирование эксперимента, составление модели, определение выборки и др., что обычно упускается из виду. Особенно аналитики данных готовы бросаться исследовать любую совокупность признаков, упуская из виду то, что она должна быть целевой и обязательно должна быть доработана, чтобы ее исследование имело смысл, а не сводилось просто к процессу применение математического аппарата в надежде что-нибудь выявить (что очень часто имеет место быть).

Следует акцентировать следующие концептуальные моменты, важные для процессов сбора данных:
– предположения о параметрах генеральной совокупности, выбор структуры и объема выборки,
– понимание цели исследований и соответственно сбора данных, что существенно и определяет все последующие действия, например, такие, как выбор форматов данных и критериев их сбора,
– переход от категорий к переменным, по сути, обозначающий существо измерения,
– идентификация переменных, особенно в смысле того, что одна и та же переменная может иметь разную смысловую нагрузку в разных исследованиях и измерениях,
– выбор источников и способов получения информации,
– определение мест и времени сбора информации,
– подготовка персонала,
– обеспечение предпосылок для контроля и последующего анализа собранной информации.

При этом следует выделить некоторые, в том числе уже указанные ранее проблемы.
    Во-первых, в науках и информационных технологиях отсутствуют (точно не оговорены, не являются понимаемыми) критерии сбора данных, в первую очередь, критерий полноты (достаточности) собранных данных: ведь ясно, что чем больше было воспринято, тем должно быть лучше для понимания объекта. Однако, например, как долго и насколько полно надо воспринимать объект и почему это должно зависеть от внешних обстоятельств (например, математических усреднений), не обосновывается, а отдается на откуп специалистам по обработке данных. Это во многом обусловливает то, что сбор данных является неполным, субъективным, по сути, случайным, и остается неопределенным.
    Во-вторых, сбор данных не только не обоснован как процесс, но и не устанавливает и не исключает искажения анализируемых сведений, объекта, проблемы и т.д., о чем попросту умалчивают определения процедур сбора данных, которые лишь прикрываются красивыми рекламными словами «повышение достоверности» и т.п.
    В-третьих, в целом в науках и в информационных технологиях открыто признается (но не осмысливается и не исправляется!) то, что обычно собираются неполные данные – не-данные, или берется некоторая их выборка, причем без гарантий а) достоверности получения ее самой, б) отражения ею реального положения дел, и и) что ее в общем случае трудно назвать актуальной, репрезентативной (в диалектике используется другой подход).
    Более того, в-четвертых, данные еще более усекаются в ходе сбора, формализации и предобработки, а введение формальных позиций при сборе данных, причем прежде всего при их восприятии и представлении, еще более ограничивает и усекает получение и понимание объекта.
    И еще раз подчеркнем: в науках и в информационных технологиях данные не могут быть не только корректно определены, о чем уже был разговор, но и собраны, в том числе подготовлены к обработке.

Многие из обозначенных вопросов и проблем в диалектике имеет свои основания и пути решения: например, в диалектике
– то, что в науках собираются неполные данные, или не-данные, дает основание одному из начал новых рассуждений о диалектической обработке данных,
– учитываются фундаментальные положения, акцентированные еще Платоном и Гегелем, например, то, что в процессе восприятия объект меняется и что сознание меняет представление об объекте,
– речь идет о более глубоких представлениях о существе начала исследований (это положение было определено еще Платоном),
– используется понятие содержания,
– кроме внешних факторов учитываются внутренние, сущностные, а также различение данных,
– негативы обозначения цели и планирования исключаются за счет ряда действий, в том числе трех только что указанных выше,
– за счет применения одного из принципов диалектики решен вопрос о том, что методы, разрабатываемые для исследования одних процессов, учитывающие опорные, смысловые переменные как зависимые или независимые, в других случаях учитывают переменные в противоположном смысле.

 

 

 

Дискуссии и конференции. Методы.