Модель в Data Mining.
- 04.04.21 г.
- 9772225665000    21013


Как известно, основой технологии Data Mining (далее – Data Mining) является концепция шаблонов (паттернов), отражающих структуру данных и аспекты их составляющих взаимоотношений и служащих поиску закономерностей и скрытых знаний.
    Однако ее сутью (см. «Пoрядoк рeaлизaции Data Mining») является построение модели, предназначенной для исследования выявленных данных, закономерностей и т.д. – объекта исследования, с целью предсказания его состояний и подготовки материалов для принятия решений.
    Поэтому обсуждение модели является принципиально важным положением для понимания Data Mining, но более существенно то, что оно имеет интересные, ранее не обсуждавшиеся выводы. В связи с этим мы акцентируем три существенных позиции, касающиеся моделей в Data Mining, и обозначим одно негативное положение, которое станет своего рода обозначением критической для Data Mining ситуации, сложившейся вообще в сфере информационных технологий, но игнорируемой в науках. А вот в современной диалектике оно рассмотрено подробно и стало основной нового понимания информационных технологий (о котором будет сказано в соответствующем Разделе).


А. О моделях в Data Mining.

А1. Модель обычно понимается как материальное или абстрактное представление объекта в некоторой форме, отражающее его структуру и существенные аспекты и позволяющее установить требуемые его характеристики и иные параметры для получения реальных знаний о нем, его функционировании, его перспективах и т.д. в целях решения заданной задачи.
    Иными словами, модель – это упрощенное представление объекта, отражающее его существенные свойства и предназначенное для решения заданной задачи.

Известно множество классификаций моделей, представленных в литературе и в Интернете, например, в Википедии указаны следующие:
– по способу отображения действительности (по способу представления модели) – эвристические, натурные и математические (другое подразделение, не указанное в Википедии: натурные и информационные),
– по количеству и степени важности учитываемых свойств и параметров (по характеру отображаемых свойств) – функциональные, принципиальные, структурные и параметрические,
– по целям исследований – функциональные,  функционально–физические модели и модели процессов и явлений, 
– по особенностям представления – простые и сложные, однородные и неоднородные, открытые и закрытые, статические и динамические, вероятностные и детерминированные и т.д.

Еще существуют такие классификации моделей:
– по области использования – учебные, игровые, исследовательские, опытные и имитационные модели,
– по отрасли представленных в модели знаний – физические, биологические, социальные, экономические и т.д.,
– по способу реализации – компьютерные и некомпьютерные,
– по глубине детализации – описательная и формальная.

Бывают весьма специфические модели, обыгрывающие отдельный признак, например, хроматические, которые создаются с применением цветовых концептов.

Но в сфере информационных технологий и информатики обычно говорят об информационной модели, являющейся определенным видом моделей, отличающимся формой существования – информационной, обычно компьютерной.
    Согласно ГОСТ 34.003–90, информационная модель – модель объекта, представленная в виде информации, описывающей существенные для данного рассмотрения параметры и переменные величины объекта, связи между ними, входы и выходы объекта и позволяющая путем подачи на модель входных величин моделировать возможные состояния объекта.

Еще в многочисленной литературе можно найти такие определения информационной модели:
– совокупность информации, характеризующая существенные свойства и состояния объекта, процесса, явления, а также взаимосвязь с внешним миром,
– представление понятий, связей, ограничений, правил и операций, предназначенное для определения семантики данных для конкретной проблемной области,
– приближенное описание некого объекта, процесса или явления, значимое с точки зрения целей изучения и реализованные с помощью средств информационных технологий.

Информационная модель – это, по сути, информация, которая описывает в том или ином виде существенные для конкретного объекта состояния, его существенные свойства, составляющие, связи между ними, процессы, связи с внешней средой, а также параметры для обмена данными. Такие модели не имеют материального воплощения, поскольку реализуются на компьютерах.
    Понятно, что основными составляющими информационной модели являются данные об объекте, их структура и процедуры обработки. По сути, информационная модель является схемой, в которой описано существо исследуемого объекта, а также все необходимые для его исследования процедуры.

Отдельно отметим, что существуют разные виды информационных моделей: словесные (вербальные), знаковые, графические, математические, логические, табличные, геометрические (граф, блок–схема алгоритма решения задачи, диаграмма и т.д.) и др.

А2. Непосредственно в литературе по Data Mining обозначаются следующие виды моделей:
– динамические и статические,
– стохастические и детерминированные,
– непрерывные и дискретные,
– линейные и нелинейные,
– прогнозирующие (модели линейной регрессии, модели на основе нейронных сетей), классификационные и описательные (кластеризации, группировки, правил ассоциаций, обобщения),
– физические, концептуальные, математические (в виде совокупности уравнений), аналоговые.

Отдельно выделяют
– экспертные модели,
– модели предметной области (акцентируются особенности предметной области),
– модели временных рядов (исследуются временные зависимости).

По классификации моделей можно получить достаточное представление об их функционалах и предназначении.

А3. Основные этапы построения модели.

Обычно говорится о таких этапах:

  1. Постановка задачи: выбор объекта, определение цели моделирования и описание исходных данных и результатов.
  2. Изучение моделируемого объекта.
  3. Содержательное описание объекта тем или иным конкретным способом.
  4. Формализация описания, когда объект предстает уже не в натуральном виде, а в абстрактном, формальном.
  5. Выбор метода решения задачи.
  6. Построение модели, в том числе разработка программного обеспечения, включая необходимые компоненты, например, базы данных.
  7. Исследования корректности модели и ее применения (ее ограничения и т.п.) в целях выяснения а) соответствия модели объекту и происходящим с ним процессам и б) возможности решения поставленной задачи; в случае некорректности модели ее дорабатывают.
  8. Подготовка к решению задачи.
  9. Проведение исследования (фактически – воспроизведение и исследование изучаемого объекта).
  10. Нахождение решения поставленных задач с помощью модели.
  11. Анализ полученной информации в целях корректировки модели, выработки рекомендаций, постановки новых задач и др.

Методы, применяемые для создания модели и ее функционирования, будут рассмотрены в Разделе «Методы обработки данных».


Б. На первый взгляд кажется, что понятие модели, ее создание и следовательно функционирование информационных технологий изучено хорошо. Однако, как уже было указано ранее при анализе Data Mining, в литературе, посвященной этой технологии, всегда отмечается, что применение Data Mining (опорным положением которой как раз и является модель) не дает гарантий получения достоверных знаний и принятия на основе этих знаний верных решений. (Очевидно, что такое же утверждение можно допустить и по отношению к остальным информационным технологиям, хотя бы по тем же причинам, по которым оно сделано в отношении Data Mining.) Но в связи с чем оно делается? Понятно, что все дело не в классификациях или методах (которые суть в основном хорошо изучение математические) и даже не в регламенте исполнения информационных технологий, ибо практическая часть отработана до мелочей. Тогда остается предположить, что проблема кроется в самом существе информационных технологий, которым является … модель. (Конечно же, существенны и другие моменты, в том числе касающиеся тех же самых методов, что стало в диалектическом программировании отдельным предметом исследований, но они все сопутствуют основному положению информационных технологий, их ядру, – модели.)
    Обычно считается, что в науках имеется весьма точное представление о моделях, в связи с чем должно иметь место их высокоэффективное применение. Однако, основной вопрос вот какой: в науках имеется только классификационно-функциональное определение моделей, но нет их концептуального понимания и, прежде всего, выделения их основополагающего признака. Это утверждение становится еще более ярким, если проанализировать представленные ранее на сайте материалы в Разделе DATA GETTING. Например, напомним, что исходным пунктом исследований стало понимание не только того, что (1) имеющиеся технологии обработки данных, или информационные технологии (например, технология Data Mining), не имеют концептуального определения, но и того, что (2) они не являются цельными технологиями, а являются лишь набором отдельных многих методов, причем в основном математических, то есть формальных, однако применяемых а) к конкретным объектам и б) ко всему, чему угодно, к чему ни попадя. Более того, (3) решение о применении методов принимает специалист, который не может, как уже открыто признается, адекватно ориентироваться в их обилии, а также в спецификах различных предметов. При этом (4) любая решаемая в Data Mining задача, оказывающаяся предметом технологии, остается внешней имеющемуся арсеналу средств и даже исследуемому объекту (ситуации), что ставит под вопрос не только корректность Data Mining, но и целесообразность ее применения во многих случаях, требующих строгого соответствия объекта постановке задач и методам. При этом решение задач и все требуемые действия, начиная со сбора данных, упираются непосредственно в модель, – в первую очередь, в ее понимание.
    В итоге проблема определения моделей становится венцом обозначенных ранее проблем, обозначенных в процессе анализа Data Mining (и соответственно всех информационных технологий). И хотя проблем много и их надо решать, сейчас главное – это понимание только что указанной, основной проблемы, давно имеющей место, но также давно игнорируемой в науках и в информационных технологиях.
    Для ее понимания и решения, в первую очередь, необходимо рассмотреть, по меньшей мере, хотя бы выявленные ранее, отдельные, концептуально связанные с ней позиции, причем актуализированные в связи с выявлением ряда ошибочных представлений в областях информатики и информационных технологиях:
– данные,
– методы обработки данных,
– информационные технологии.
    Иными словами, общий анализ Data Mining, завершившийся рассмотрением ее ключевого положения – модели, привел к выводу, что необходимо более детально рассмотреть вопросы, касающиеся данных, их представления и обработки. То есть придется начинать сначала! В принципе это понятно: если в науках все ограничивается внешним рассмотрением вопросов (сущность в них не признается и не рассматривается, более того, просто-напросто отсекается признанием непознаваемости вещи в себе), то в диалектике необходимым (и неизбежным в данном случае) является рассмотрение сущностных аспектов возникшей проблемы, которая попросту игнорируется в науках и информационных технологиях (и, быть может, это тоже является существенной причиной ее не рассмотрения в них).
    А в итоге придется в корне менять представления о данных, о процессах их обработки и об информационных технологиях, но поскольку это вряд ли осуществимо в сфере наук, то необходимо формировать соответствующие представления в области диалектики – в сфере диалектического программирования: это будут основы диалектических информационных технологий, с другой стороны, подход к которым, кстати, уже имеется в смысле отрицания обыкновенной логики.
    Таким образом, необходимо от обычного, принятого в науках рассмотрения Data Mining (и любой информационной технологии) перейти к ее диалектическому анализу, который затронет ряд важных позиций, уже акцентированных по ходу изложения Раздела. Для этого в двух последующих статьях мы завершим вторую часть Раздела и определим составляющие его третьей части, которые станут отдельными Разделами сайта (в связи со значительностью поднимаемых вопросов и рассматриваемых положений).