Технология Data Mining.
- 07.02.21 г.
- 9772225665000 21006
Технология Data Mining (далее – Data Mining) досконально описана в литературе, в силу чего не требует особо длительных описаний и разъяснений, ибо любой желающий всегда сможет найти исчерпывающую информацию о ней. Но для понимания материалов, излагаемых на сайте, укажем (в этой и ряде последующих статей) некоторые положения, которые важны в том или ином смысле для проводимых диалектических исследований, прежде всего – для формирования парадигмы Data Getting.
А. Data Mining обычно понимается в основном в смысле следующих трех аспектов в различных их вариациях и комбинациях:
– как глубинный анализ данных (в основном баз данных) в целях нахождения неявных данных,
– как обнаружение ранее неизвестных данных, корреляций, тенденций, закономерностей, структур,
– как обнаружение в данных ранее не известных знаний.
При описании Data Mining обычно указываются следующие ее свойства и характеристики:
– обработка больших объемов данных,
– применение различных методов, прежде всего статистических и математических методов,
– использование шаблонов (англ.: pattern),
– анализ шаблонов и применение методик распознавания образцов,
– свойства обнаруженных данных: новизна, нетривиальность, практическая полезность, доступность интерпретации и др.,
– наглядность представления данных и знаний,
– построение модели.
Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных для практики знаний, в том числе закономерностей. Поэтому-то Data Mining и понимается как «добыча знаний». Нередко ее определяют как «обнаружение знаний в базах данных» и даже как «интеллектуальный анализ данных». Но на наш взгляд, как и по мнению многих специалистов, термин (понятие) «интеллектуальная обработка данных» не является корректным (для нас в первую очередь потому, что интеллект в науках не определен, см. «Проблемы определения интеллекта в науках»), и поэтому целесообразнее говорить о поиске скрытых данных и т. п.
Для понимания существа Data Mining можно сказать, что близким по смыслу к ней, но более формальным и ограниченным, является метод обнаружения знаний в базах данных – метод KDD (Knowledge Discovery in Databases).
Однако имеется и принципиальное концептуальное отличие Data Mining от KDD.
Принципиально важным положением, характеризующим DataMining, является то, что она
а) связана с принятием решений,
б) реализуется с применением неаналитических приемов и методов (см. ниже),
в) предназначена для поддержки принятия решений, и это отражает ее основное предназначение, что является ее существенным и отличительным признаком; поэтому, кстати, Data Mining иногда определяется как процесс поддержки принятия решений, подразумевающий обнаружение и применение новых или специфических данных.
В целом считается, что Data Mining может применяться везде, где имеются данные, т.е. везде, хотя все же указываются два основных направления применения этой технологии: бизнес (различные области: банковское дело, торговля и т.д.) и научные исследования (из которых обычно упоминаются генетика, химия, медицина).
Но иногда Data Mining определяется достаточно узко – как сугубо коммерческая технология, которая служит для обнаружения актуальных знаний о бизнесе, что, скорее, отражает одно из ее основных применений.
Таким образом, кратко резюмировать можно так: Data Mining – это инструмент выявления скрытых знаний в целях принятия решений, в основном в экономической сфере.
Хотя все же следует отметить, что имеются различные точки зрения на Data Mining, из которых укажем следующие:
– одни считают эту технологию несерьезной, ненаучной, созданной попросту как совокупность методов (правда, реализованных в виде многих серьезных программных продуктов) для решения отдельных утилитарных задач,
– другие считают эту технологию альтернативой традиционному пониманию анализа и его возможностей, что отчасти объясняется применением возможностей, не свойственных традиционному анализу (например, машинное обучение и artificial intelligence).
– третьи обсуждают возможности совместного использования достижений в сферах классического статистического анализа данных (OLAP и др.) и методик выявления скрытых знаний (Data Mining).
Б. Принято считать, что контуры Data Mining обозначились в конце 70-х в силу развития возможностей обработки данных в области прикладной статистики, а сам термин был введен в 1989 г.
Посылка Data Mining – статистика. Но, несмотря на то, что в статистике применялись разнообразные методы, в том числе математические инструменты, в определенный момент времени она оказалась неэффективной для решения большого числа значимых задач по ряду причин, в том числе в силу того, что оперировала усреднением выборки данных, или абстрактными величинами, например такими, как «средняя температура больных в больнице». Более того, оказалось, что статистика весьма эффективна в основном только для анализа, основанного на аналитической обработке данных, и для проверки сформулированных гипотез. Иными словами, имевшиеся инструменты (прежде всего OLAP) позволяли на основе имевшихся представлений и знаний анализировать данные и создавать проекты (гипотезы) и решения, однако использовались лишь познанные представления и создаваемые на их основе гипотезы. Но исследуемые феномены могли иметь новые знания, которые могли «скрываться» в данных и которые следовало поэтому найти, прежде всего для осмысления (создания) принципиально новых гипотез, проектов и решений.
Фактически, на концептуальном уровне пришло понимание того, что новые знания нужно извлекать из данных и использовать – что нужно осуществлять познание и применять новые знания. Поэтому необходимо было расширить сферу обработки данных, в том числе за счет поиска скрытых, неявных данных, закономерностей, знаний. В принципе – это понятная идея, но она стала реализовываться отдельным образом, причем при обработке значительных объемов информации с помощью компьютерных возможностей (следует отметить – основанных на математических методах, что позволит нам в дальнейшем акцентировать одно очень важное положение), что стало пониматься как «добыча данных», отсюда и появился термин «Data Mining».
Основами современной Data Mining следует считать
– статистику – знания о методах сбора данных, их обработки и анализа для выявления закономерностей, присущих изучаемому явлению,
– машинное обучение – наука, согласно Митчеллу, которая «изучает компьютерные алгоритмы, автоматически улучшающиеся во время работы»,
– искусственный интеллект – направление, в рамках которого ставятся и решаются задачи аппаратного или программного моделирования видов человеческой деятельности, традиционно считающихся интеллектуальными; однако тут следует учитывать различие западного термина «artificial intelligence» и российского «искусственный интеллект», а также то, что интеллект в науках не определен.
Можно сказать, что Data Mining является, по сути, междисциплинарной областью, возникшей и развивающейся на базе достижений научных и эвристических дисциплин: в первую очередь, это – статистика, математика и программирование: прикладная статистика, нечеткая логика, теория нейронных сетей, математические методы, программистские знания и инструменты (причем часто говорится о больших данных (Big Data), о технологиях artificial intelligence (этот термин в России ошибочно понимается как «искусственный интеллект»)), генетические алгоритмы, эволюционное программирование и т.д.
В. Отличительной особенностью Data Mining (одновременно существенно снижающей ее потенциал, но об этом речь пойдет позже) является применение концепции шаблонов (англ.: pattern), выражающих системы состояний или взаимоотношений данных, в том числе закономерности. При этом акцентируется, что шаблоны (характеризующие исследуемый объект) имеют достаточно упорядоченную конфигурацию, которая как раз и определяет закономерность или системный характер анализируемой выборки данных (именно это как раз и отражается словом «pattern», поэтому оно и было применено).
Можно сказать проще: шаблон представляет собою (повторяющуюся) конфигурацию данных, которая отражает их зависимости (структуру) или закономерности и может быть использована для анализа разных выборок данных и в разных областях исследований. Более того, он позволяет представить анализируемые данные в компактной и понятной для человека форме, что стало чуть ли не основным отличительным свойством Data Mining, но на самом деле является лишь следствием представления данных в виде шаблонов.
При этом следует отметить два положения.
Обычно, во-первых, акцентируется то, что шаблоны отражают неявные, неочевидные данные и их закономерности, т.е. скрытые данные (которые и нужно извлечь, изучить), что можно считать верным в смысле того, что поскольку они еще не были познаны, то они скрыты, но это – очевидный факт, не более чем игра слов, рекламный трюк. Однако почему-то игнорируется, что скрытые данные – это всего лишь незнание или просто недостаток их предыдущей обработки или отсутствия таковой. Во-вторых, утверждается, что скрытые данные позволяют лучше описать объект и вычислить его развитие. Но опять же это, с одной стороны, ясно, как белый день – чем больше данных, тем точнее модель и предсказание, или это опять рекламный трюк, однако, с другой стороны, образует посылку существенного негатива Data Mining, который будет рассмотрен отдельно (или обсужден в дискуссиях).
Г. Для понимания сути Data Mining отдельно следует сказать о том, что понятия «скрытые данные» (отражающие состояние объекта) и «скрытые знания» (принципиально новые, ранее неизвестные результаты обработки данных) во многих источниках и многими специалистами путаются. Этот парадокс понятен и даже закономерен, ибо выявленные «скрытые данные» уже являются, по сути, новыми знаниями, причем в то же время когда-то «скрытыми знаниями», а процесс их получения, выявления, определяет их уже знаниями, а не «еще данными», пусть они и предназначаются для дальнейшей обработки для получения того, что будет считаться «новыми знаниями» или (выявленными) ранее «скрытыми знаниями» (как бы существовавшие сами по себе, но просто ранее не известные).
В силу обозначенного парадокса или хотя бы часто встречающихся разночтений необходимо особо акцентировать требования именно в Data Mining к результатам обработки данных, к получаемым знаниям («новым знаниям», «скрытым знаниям»).
Во-первых, речь идет о новых, ранее неизвестных знаниях, позволяющих достичь новые результаты, например, повышение конкурентоспособности, причем зачастую речь идет даже о том, что новыми знаниями не могут быть знания, подтверждающие ранее известные данные и знания (!), хотя в смысле опосредствования могут быть обнаружены еще и некие «новые новые знания».
Во-вторых, (новые) знания должны быть нетривиальными, т.е. отражать не только новые, но и «неожиданные» свойства и закономерности в данных, составляющие так называемые скрытые знания, т.е. «очевидные» знания (которые могут быть получены при непосредственном анализе данных или при простых вычислениях статистических действиях, т.е. без серьезных исследовательских затрат) и известные знания (даже в их новом значении) нередко не считаются ценными, стоящими применения технологии Data Mining, что конечно же является ее большим минусом, точнее минусом ее концепта, исполнения и применения.
В-третьих, (новые) знания должны быть практически применимы и полезны, должны привести к определенной выгоде при их применении.
В-четвертых, (новые) знания должны быть логически объяснимы, в противном случае считается, что существует вероятность, что они являются случайными (но это лишь указывает на несовершенство объективно-научного познания и соответственно самой Data Mining).
В-пятых: (новые) знания должны иметь понятное для человека изложение (но это скорее требование не к знаниям, а к видам и возможностям их представления, предназначенным для людей с разным уровнем образования; но это – требование Data Mining, и поэтому приходится его указывать).
Указанные требования во многом определяют суть Data Mining и то, в каком виде и в каком соотношении могут использоваться данные, системы управления данными и методы анализа (отметим, что выше были указаны положения, характеризующие саму технологию).
Д. В общем виде Data Mining имеет следующую реализацию, которую в кратком концептуальном изложении, требующемся для последующего анализа, представим в следующем виде:
а) дано: некие данные, причем для их сосредоточения предполагаются хранилища данных, а не базы данных,
б) проверяемый тезис: в данных находятся какие-либо «скрытые знания»,
в) задача: создать и реализовать алгоритм обнаружения «скрытых знаний» (на базе существующих методов и т.п.),
г) оформление данных: создание модели,
д) осуществление: (обычно автоматизированный) процесс исследования данных с целью поиска скрытых данных, закономерностей и знаний.
Отдельно отметим, что Data Mining является итеративным процессом.
Е. Отдельно, в целях разъяснения существа Data Mining, кратко остановится на ее осуществлении, точнее – на ее методах (хотя далее им будет посвящен отдельный Раздел).
Основными методами Data Mining являются разнообразные методы классификации, моделирования и прогнозирования, математические и статистические методы. Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных и даже об их закономерностях, что несколько расходится с описанием существа и целей Data Mining (обнаружение ранее неизвестных нетривиальных знаний).
Суть пять стандартных типов закономерностей, используемых в Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование; они и являются концептуальной основой Data Mining и решения задач на ее основе.
Data Mining использует ряд возможностей технологии OLAP, но все же Data Mining следует считать одной из альтернатив OLAP (это вопрос будет рассмотрен отдельно).
Особо следует отметить, что при обработке данных и подготовке решений акцент все более смещается в сторону чисто логических алгоритмов (например, поиска с помощью if-then правил), ибо их исполнение хорошо отработано и эффективно, а результаты наглядны и легко интерпретируются. Но именно это составляет и определенную проблему Data Mining и может негативно повлиять на ее результативность в будущем.
Ж. Обозначив общие позиции, дающее достаточное представление о Data Mining, далее для ее анализа необходимо будет остановиться на отдельных предметных позициях, ряд из которых будет раскрыт даже в отдельных Разделах (настолько обширны темы, упущенные из виду при создании Data Mining!), о чем уже говорилось ранее: см. «Зaдaчи и нaпрaвлeния исслeдoвaний».
Кроме того, по ходу рассмотрения Data Mining в целях определения некоторых принципов парадигмы Data Getting и новых информационных технологий будут отдельно указаны и проанализированы (в основном в дискуссиях)
– задачи и позиции осуществления Data Mining,
– системы, подходы, форматы и способы реализации Data Mining,
– некоторые инструменты (методы, теории, виды анализа и т.д.) Data Mining,
– некоторые программные продукты, используемые при реализации Data Mining,
– специализации (профессии) персонала, реализующего Data Mining,
а также следующие из их анализа некоторые эмерджентные аспекты и концептуально новые положения.
Облачные зоны закрыты до новых дискуссий.