Модель в технологии Data Mining.
- 04.04.21 г.
- 9772225665000 21013
В литературе по технологии Data Mining (далее – Data Mining) обозначается, что ее сутью является построение модели, предназначенной для исследования выявленных данных, закономерностей и т.д. с целью исследования объекта, получения новых знаний о нем, предсказания его состояний и подготовки материалов для принятия решений (см., напр.: «Литература по Data Mining», а также «Порядок реализации Data Mining»).
Создание и использование в Data Mining модели является основным моментом для исследования и прогнозирования развития объекта.
Создание моделей Data Mining заключается в формировании совокупности данных и нахождении системы некоторых правил, которые выражают зависимость выходных параметров от входных. При этом можно сказать, что модель объективно отражает значимые факторы с точки зрения решаемой задачи.
Считается, что использование модели в Data Mining позволяет определить наилучшее решение в конкретной ситуации.
В литературе по Data Mining обозначаются следующие виды моделей:
– динамические и статические,
– стохастические и детерминированные,
– непрерывные и дискретные,
– линейные и нелинейные,
– прогнозирующие (модели линейной регрессии, модели на основе нейронных сетей), классификационные и описательные (кластеризации, группировки, правил ассоциаций, обобщения),
– физические, концептуальные, математические (в виде совокупности уравнений), аналоговые.
Отдельно выделяют
– экспертные модели,
– статистические,
– модели предметной области (акцентируются особенности предметной области),
– модели временных рядов (исследуются временные зависимости).
По классификации моделей можно получить достаточное представление об их функционалах и предназначении.
Б. В литературе по Data Mining отмечается, что построение модели осуществляется после постановки задачи, анализа объекта, сбора и подготовки данных для их обработки различными методами в некотором порядке.
Создание модели обычно в целом осуществляется в следующем порядке:
– построение модели,
– проверка и оценка модели, возможное ее уточнение,
– выбор варианта (исполнения) модели,
– применение модели (исследование объекта, решение задачи),
– оценка результатов,
– коррекция и обновление модели в случае возникновения вопросов к порядку работы модели или к результатам или изменения ситуации.
Но, несмотря на обширные описания подготовки и обработки данных, классификаций моделей и ряда их характеристик, нет никаких конкретных регламентов по исполнению первого пункта. В целом это понятно, ибо существенны многие причины.
Во-первых, каждый объект по-своему уникален и невозможно составить общий регламент для всех объектов и возникающих ситуаций.
Во-вторых, как бы это не звучало удивительно, но в обширной литературе по Data Mining нет корректного и однозначного определения модели. Максимум о чем говорится, так это о том, что модель представляет собой специализированное представление об объекте, реализованное в том или ином виде. Обычно отмечается, что модели могут быть реализованы в различных видах: схемы, формулы и т.п. То есть модель понимается как некая структура, система, не имеющая конкретных концептуальных (определительных) признаков, – фактически интуитивно, что вызывает вопросы о реализации Data Mining, о существе этой технологии.
При этом, в-третьих, модель (ее значимые факторы, данные, методы и т.д.) определяются специалистами по Data Mining, т.е. субъективно, и нет никакой объективности, которая кроется в обычно используемых красивых словах, например, «с точки зрения решаемой задачи». Более того, одни факторы учитываются, другие нет. Иными словами, при создании модели царят субъективность, относительность и случайность. Именно это положение обычно опускается в литературе по Data Mining, ибо тогда сразу бы возник вопрос об ее объективности и точности, а так получается, что точность как бы определяется математикой и возможностями компьютеров, т.е. может быть достаточной (но в смысле формализации и точности вычислений, а не создания самой модели, о чем обычно умалчивается). Об этой достаточности как раз обычно и говорится в литературе по Data Mining, но не говорится о существе того, что обладает этой «достаточностью» и почему, – не говорится о понятии (определении) модели…
Поэтому, в-четвертых, любая модель относительна, приблизительна и неполна и следовательно обладает рядом погрешностей, что иногда указывается в литературе по Data Mining. Более того, указываются даже причины этих проблем: недостоверные исходные допущения при построении модели, ограниченные возможности и ошибки при сборе данных и др., только вот методов устранения этих недостатков нет...
Из сказанного следует необходимость переосмысления понятия «модель» и формирования ее нового определения, не имеющего указанных негативных черт. Однако уже понятно, что без выхода за границы общеизвестных научных разговоров о модели ее понятие не может быть получено. В этом смысле необходимо определиться с рядом критических и парадигмальных положений, из которых ниже обсудим одно из критических положений (а в первой предметной статье Раздела «Модель» – два диалектических парадигмальных положения).
В. Определение опорного положения критики и развития понятия модели.
Итак, на первый взгляд кажется, что понятие модели, ее создание и следовательно функционирование информационных технологий изучено хорошо. Однако, как уже было указано ранее при анализе Data Mining, в литературе, посвященной этой технологии, всегда отмечается, что применение Data Mining (опорным положением которой как раз и является модель) не дает гарантий получения достоверных знаний и принятия на основе этих знаний верных решений. (Очевидно, что такое же утверждение можно допустить и по отношению к остальным информационным технологиям, хотя бы по тем же причинам, по которым оно сделано в отношении Data Mining.) Но в связи с чем оно делается? Понятно, что все дело не в классификациях или методах (которые суть в основном хорошо изучение математические) и даже не в регламенте исполнения информационных технологий, ибо практическая часть отработана до мелочей. Тогда остается предположить, что проблема кроется в самом существе информационных технологий, которым является … модель. (Конечно же, существенны и другие моменты, в том числе касающиеся тех же самых методов, что стало в диалектическом программировании отдельным предметом исследований, но они все сопутствуют основному положению информационных технологий, их ядру, – модели.)
Обычно считается, что в науках имеется весьма точное представление о моделях, в связи с чем должно иметь место их высокоэффективное применение. Однако, основной вопрос вот какой: в науках имеется только классификационно-функциональное определение моделей, но нет их концептуального понимания и, прежде всего, выделения их основополагающего признака. Это утверждение становится еще более ярким, если проанализировать представленные ранее на сайте материалы в Разделе DATA GЕTTING. Например, напомним, что исходным пунктом исследований стало понимание не только того, что (1) имеющиеся технологии обработки данных, или информационные технологии (например, технология Data Mining), не имеют концептуального определения, но и того, что (2) они не являются цельными технологиями, а являются лишь набором отдельных многих методов, причем в основном математических, то есть формальных, однако применяемых а) к конкретным объектам и б) ко всему, чему угодно, к чему ни попадя. Более того, (3) решение о применении методов принимает специалист, который не может, как уже открыто признается, адекватно ориентироваться в их обилии, а также в спецификах различных предметов. При этом (4) любая решаемая в Data Mining задача, оказывающаяся предметом технологии, остается внешней имеющемуся арсеналу средств и даже исследуемому объекту (ситуации), что ставит под вопрос не только корректность Data Mining, но и целесообразность ее применения во многих случаях, требующих строгого соответствия объекта постановке задач и методам. При этом решение задач и все требуемые действия, начиная со сбора данных, упираются непосредственно в модель, – в первую очередь, в ее понимание.
В итоге проблема определения моделей становится венцом обозначенных ранее проблем, обозначенных в процессе анализа Data Mining (и соответственно всех информационных технологий). И хотя проблем много и их надо решать, сейчас главное – это понимание только что указанной, основной проблемы, давно имеющей место, но также давно игнорируемой в науках и в информационных технологиях.
Для ее понимания и решения, в первую очередь, необходимо рассмотреть, по меньшей мере, хотя бы выявленные ранее, отдельные, концептуально связанные с ней позиции, причем актуализированные в связи с выявлением ряда ошибочных представлений в областях информатики и информационных технологиях:
– данные,
– методы обработки данных,
– информационные технологии.
Иными словами, общий анализ Data Mining, завершившийся рассмотрением ее ключевого положения – модели, привел к выводу, что необходимо более детально рассмотреть вопросы, касающиеся данных, их представления и обработки. То есть придется начинать сначала! В принципе это понятно: если в науках все ограничивается внешним рассмотрением вопросов (сущность в них не признается и не рассматривается, более того, просто-напросто отсекается признанием непознаваемости вещи в себе), то в диалектике необходимым (и неизбежным в данном случае) является рассмотрение сущностных аспектов возникшей проблемы, которая попросту игнорируется в науках и информационных технологиях (и, быть может, это тоже является существенной причиной ее не рассмотрения в них).
А в итоге придется в корне менять представления о данных, о процессах их обработки и об информационных технологиях, но поскольку это вряд ли осуществимо в сфере наук, то необходимо формировать соответствующие представления в области диалектики – в сфере диалектического программирования: это будут основы диалектических информационных технологий, с другой стороны, подход к которым, кстати, уже имеется в смысле отрицания обыкновенной логики.
Таким образом, необходимо от обычного, принятого в науках рассмотрения Data Mining (и любой информационной технологии) перейти к ее диалектическому анализу, который затронет ряд важных позиций, уже акцентированных по ходу изложения Раздела. Для этого в двух последующих статьях мы завершим вторую часть Раздела и определим составляющие его третьей части, которые станут отдельными Разделами сайта (в связи со значительностью поднимаемых вопросов и рассматриваемых положений).
Продолжение: «Модель: переосмысление».
Облачные зоны закрыты до новых дискуссий.