Основные задачи и позиции Data Mining.
- 21.02.21 г.
- 9772225665000    21008


В настоящей статье приводятся основные задачи и позиции технологии Data Mining (далее – Data Mining), которые в целом хорошо известны по отдельности, и поэтому просто обозначены. Однако следует учесть, что они сведены вместе, что не встречалось нам ни в одном источнике и что осуществлено не по причине очередных перечислений, чем часто грешит литература о Data Mining, а по причине, которая не рассматривалась ранее. Если указываемые ниже задачи и позиции в целом известны, то вот их диалектический анализ (который не мог быть произведен в материалистичных науках и тем более в формализованных информационных технологиях) позволяет определить принципиально новые, эмерджентные положения и даже принципы, которые будут кратко обозначены, а потом на сайте будут рассмотрены отдельно. Сам диалектический анализ приводимых задач, позиций, эмерджентных положений и выводов проводиться в данной статье не будет по ряду причин (однако это можно будет сделать в дискуссиях по желанию пользователей), ибо главное – это обозначить приводимое ниже сосредоточение ряда положений, которые позволяют выделить указываемые ниже особенности (позиции), которые важны и сами по себе, но, что самое важное, в дальнейшем позволят
– понять суть и логику обработки данных, т.е. информационных технологий, но не с позиций частых представлений о возникающих в конкретных случаях задачах, а с сущностных позиций,
– провести обозначение и исследование позиций, обозначаемых критикой информационных технологий,
– выявить ошибки и недостатки существующих информационных технологий,
– исправить ошибки и недостатки существующих информационных технологий,
– выявить обозначаемые диалектической критикой смыслы и актуальные позиции обработки данных, т.е. информационных технологий,
– разработать концепт качественно нового осмысления (и формирования) процессов и задач обработки данных и соответственно информационных технологий,
– создать качественно новые информационные технологии (см. «Информационные технологии новые»).


А. В первую очередь следует акцентировать основные процессы (здесь: не методы) обработки данных, которые составляют существо реализации Data Mining и позволяют понять ее задачи и методы:
– классификация,
– кластеризация,
– ассоциация,
– последовательность,
– прогнозирование.
    Можно сказать и по-другому: потребности в решении определенных задач обусловили выбор определенных методов, акцентировавших направления обработки данных. В любом случае для диалектики оказался очевидным средний термин, который оказался особенностью и позволил концептуально раскрыть в целом известные крайние термины, которые тем самым оказались не субъективно выбираемыми, как это происходит в информационных технологиях, а объективно необходимыми, причем связанными с существом как объекта, так и обработки данных о нем.


Б. Основные задачи Data Mining.

Б1.Функционально задачи Data Mining подразделяются на основные и дополнительные.
    Основные задачи:
– классификация (выявляются признаки, характеризующие группу),
– кластеризация (выявляются однородные группы данных, существующие структуры),
– регрессия (выявляются свойства зависимостей исследуемых переменных),
– поиск ассоциативных правил, или ассоциация (выявляются закономерности одновременно акцентированных событий),
– поиск последовательности (выявляются закономерности событий, упорядоченных во времени),
– прогнозирование,
– подготовка решений.
    Дополнительные задачи:
– описание,
– исследование и оценивание,
– объяснение,
– обнаружение и анализ отклонений,
– анализ связей (выявляются зависимости),
– визуализация (визуальное, графическое или иное представление данных),
– подведение итогов. 

Отдельно отметим, что по выбранным признакам, их сочетаниям и осуществлению классификации она может быть:
– простой, которая применяется для деления по одному основанию (признаку),    
– сложной, которая применяется для деления по разным основаниям с возможными синтезом простых делений в единое целое.
    При этом различают:
– основную классификацию, которая производится по существенным признакам, характеризующим общность системы объектов или объекта (его составляющих),
– вспомогательную классификацию, которая производится по внешним признакам и служит для определения системных признаков (порядка), в том числе согласно решаемым задачам.
    Также различают одномерную (по одному признаку) и многомерную (по двум и более признакам) классификации.

Б2. По стратегиям (по способам решения) задачи Data Mining подразделяются следующим образом:
– обучение с учителем, когда обучающая выборка содержит значения как входных переменных, так и выходных (целевых) переменных (например, классификация),
– обучение без учителя, когда не требуется наличие значений целевых переменных в обучающей выборке,
– другие.

Б3. Следует отметить, что в смысле наук имеется по сути то или иное подразделение (классификация) задач в силу известных критериев и признаков. Указанные и другие такого рода подразделения обусловлены в основном задачами и характеристиками методов и решаемых задач, поэтому описательны и поверхностны. Таких подразделений может быть великое множество – кто что придумает, и они практически не несут никаких сущностных или эмерджентных нагрузок. Их основным недостатком является относительность и субъективность выбора критериев классификации, а в целом – отсутствие учета замечания Платона по поводу классификации.
    А вот в современной диалектике используются аспекты упомянутого выше среднего термина, что придает совсем иной характер рассмотрению и исследованию задач, признаков и свойств обработки данных и определяет ряд как известных, так и не известных в науках характеристик процессов обработки данных и их формализации (в том числе цифровизации), а также, следовательно, и информационных технологий. Это положение более подробно может быть обсуждено в дискуссиях.

В. Отдельным образом следует акцентировать основные позиции (этапы) реализации Data Mining, которые, с одной стороны, тесно связаны с ее задачами, процессами и направлениями, а, с другой стороны, с ее существом:
– определение критериев и задач,
– сбор данных,
– предварительная обработка данных, выявление новых знаний, формирование данных,
– создание модели,
– обработка данных (практически – применение методов),
– обработка новых данных и знаний, 
– проверка результатов обработки данных (в том числе обнаружение аномалий и т.п.),
– визуализация (преобразования обнаруженных данных и знаний в понятную структуру),
– подготовка материалов для решений,
– обновление установок и данных.
    Основные позиции (этапы) реализации Data Mining, тесно связанные с ее задачами, процессами и направлениями, оказываются опосредованными с упомянутым выше средним термином, что позволило в диалектическом программировании определить многомерную функциональную систему отношений, которая стала основанием раскрытия системы характеристик процессов обработки данных и их формализации, фактически ее отображения на процесс решения задачи, т.е. осуществления процесса обработки данных. Или имеет место определение своего рода приложения характеристик процессов обработки данных к чистому определению обработки данных и к методам, что стало предпосылкой создания концепта единой целевой предметной обработки данных (а не как в существующих информационных технологиях – применение совокупности видимых специалистам методов, причем исходя из их представлений, а не самого объекта), или концепта качественно нового осмысления (и формирования) процессов и задач обработки данных и соответственно информационных технологий, по крайней мере, в диалектическом программировании.


Г. Одним из важнейших положений, напрочь упущенным в науках, являются различия (и сходства) основных задач обработки данных, реализуемых в Data Mining. Они в целом известны, достаточно часто приводятся в литературе, но почему-то не анализируются как таковые с целью получения ряда эмерджентных свойств и перспективных выводов, точнее – не могут быть проанализированы в силу отсутствия в науках соответствующих инструментов, но имеющихся в диалектике.
    Приведем наиболее часто акцентируемые в литературе различия.

Классификация и кластеризация.
    Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но отличие в том, что классы изучаемого набора данных при кластеризации заранее не предопределены.
    Кроме того, классификация определяется следующим набором положений:
– наличие множества правил: новые данные классифицируются на его основе,
– отношение к стратегии «обучение с учителем»: для ее решения обучающая выборка должна содержать значения как входных переменных, так и выходных (целевых) переменных.
    А кластеризация определяется следующим набором положений:
– наличие множество данных,
– отношение к стратегии «обучение без учителя»: не требует наличия значения целевых переменных в обучающей выборке.

Отличие ассоциации от двух предыдущих задач Data Mining заключается в том, что поиск закономерностей осуществляется на основе анализа не свойств анализируемого события (объекта), а параметров ряда событий, которые происходят одновременно.

Различие классификации и прогнозирования состоит в том, что в первом предсказывается класс зависимой переменной, а во втором – пропущенные или неизвестные значения зависимой переменной. 

Иные различия и сходства задач и позиций Data Mining, более важные для современной диалектики, не упоминаются в литературе (по крайней мере, достойного рассмотрения иных различий нами обнаружено не было), а в данной статье разбираться не будут.

Различия и сходства процессов и задач обработки данных, в том числе реализуемых в Data Mining, принципиально важны для определения ряда их аспектов и свойств, не рассмотренных в науках, но актуальных для концепта качественно нового осмысления (и формирования) процессов и задач обработки данных и соответственно информационных технологий, по крайней мере, в диалектическом программировании.


Д. Еще одним важным выводом, обозначающимся по ходу развертывания указываемых положений, является то, что понятие информационных технологий оказалось связанными с существом как объекта, так и обработки данных о нем, что в диалектике обусловило обоснование концепта единой целевой предметной обработки данных: трансформация данных (информационные технологии) неизбежна при наличии определенных условий (которые на практике состоялись).
    В свою очередь это согласно Гегелю соответствует тому, что информационные технологии вступили в свое существование, что наблюдается повсеместно, но как спонтанный для наук феномен, появившийся в силу потребностей людей, а не как необходимый феномен их жизнедеятельности. Иными словами, то, что появление информационных технологий в процессе жизнедеятельности людей закономерно и имеет однозначные принципы и критерии, в науках до сих пор не было рассмотрено, а в современной диалектике положено в основу качественно нового понимания обработки данных (информационных технологий) и ее (их) реализации. Это положение более подробно может быть обсуждено в дискуссиях.


Е. Итак, главным смыслом настоящей статьи является не перечисление задач и позиций Data Mining, что обычно осуществляется в литературе, а обозначение ряда опорных положений современных диалектических исследований данных и процессов их обработки, ставших основой концепта качественно нового осмысления (и формирования) процессов и задач обработки данных и соответственно информационных технологий, по крайней мере, в диалектическом программировании.