Порядок реализации технологии Data Mining.
- 28.03.21 г.
- 9772225665000    21012


В предыдущей статье (см. «Анализ специальностей») кратко были рассмотрены основные задачи, навыки и обязанности специалистов технологии Data Mining (далее – Data Mining). Реализация этих задач, навыков и обязанностей имеет свои этапы, регламенты, порядки (форматы) исполнения, определяемые очередностью и процедурами, например, сравнения, типизации, классификации, обобщения, абстрагирования, повторения и т.п. (о методах речь пойдет позже). Иными словами, процесс Data Mining реализуется в определенном порядке, который имеет исключительное значение не только для понимания этой технологии, но и для анализа вопросов обработки данных, т.е. для информационных технологий вообще. Поэтому необходимо отдельно рассмотреть порядок реализации (регламент исполнения) Data Mining и сделать соответствующие выводы.


А. Начнем с того, что касается эта­пов анализа данных в Data Mining. Неформально обычно выделяют пять ос­нов­ных:
– сбор данных, включающий выявление их источников и выбор ме­то­дов их по­лу­че­ния,
– про­вер­ка корректности данных и подготовка их к обработке,
– изу­че­ние дан­ных и фиксация результатов этого,
– ви­зу­а­ли­за­ция данных – пред­став­ле­ние ин­фор­ма­ции в удобном для вос­при­я­тия виде,
– подготовка ре­ше­ний на ос­но­ве обработки дан­ных.

Часто выделяются следующие стадии применения Data Mining.
    Первая: выявление закономерностей. Деятельность в ее рамках осуществляется, по сути, в формате свободного поиска, который, как считается, является индуктивным: формирование положений и выводов осуществляется в порядке от частного (имеющихся данных) к общему (знаний о них).
    Первая стадия особенно важна в ходе решения ранее рассмотренной задачи классификации (см. «Основные задачи и позиции»), когда общее представление о классе объектов, его свойствах, трендах развития и т.п. получается на основе анализа отдельных его представителей (что далее позволяет отнести тот или иной вновь рассматриваемый объект к определенному классу).
    Важным этапом первой стадии является валидация, целью которой является проверка достоверности результатов первой стадии, прежде всего на тех данных, которые не принимали участие в формировании закономерностей. Некоторые специалисты считают ее отдельной (второй)  стадией, однако практически все методы, применяемые на первой стадии, включают функции проверки и даже корректировки процессов поиска (например, нейронные сети), поэтому выделение проверки в отдельную стадию нецелесообразно, а в ряде случаев попросту приведет к нарушению порядка применения ряда алгоритмов.
    Вторая стадия: прогностическое моделирование. Эта стадия использует результаты предыдущей для выявления (предсказания) ранее неизвестных или попросту неучтенных (пропущенных) характеристик объектов или их значений
    Прогностическое моделирование считается дедуктивным, так как формирование положений и выводов осуществляется в порядке от общего к частному.
    Третья стадия: анализ исключений. Ее целью является выявление и объяснение аномалий, найденных в полученных данных и закономерностях, и коррекция данных. Обычно ищется некоторое логическое объяснение, которое принимается в виде правила для анализа и обработки данных, или принимается решение об ошибках в исходных или промежуточных данных.

Формально Data Mining, согласно стандарту CRISP–DM, включает следующие этапы:
– осмысление бизнеса (Businеss undеrstаnding),
– осмысление данных (Data undеrstаnding),
– подготовка данных (Data prеpаrаtiоn),
– моделирование (Mоdеling),
– оценка результатов (Еvаluаtiоn),
– внедрение (Dеplоymеnt).
(Отметим, что помимо CRISP–DM существуют и другие стандарты, например, SЕMMА.)

По существу Data Mining включает следующие этапы:
– постановка задачи;
– наблюдение объекта, сбор и проверка данных об изучаемом объекте (предметной области),
– предварительная обработка данных,
– анализ и подготовка данных,
– построение моделей;
– проверка и оценка моделей;
– выбор модели;
– применение модели, или исследование данных,
– анализ и проверка результатов,
– подготовка решений,
– коррекция и обновление модели.

Акцентируем следующие этапы.

Предварительная обработка данных необходима для их подготовки к обработке и является важным этапом силу разных причин. Во-первых, часто имеется избыточная информация, информация, не относящаяся к делу. Во-вторых, данные могут быть собраны или структурированы некорректным образом (например, температура тела пациента –100 С). В-третьих, возможны ошибки, вызванные разными причинами (например, ошибки ввода или интерпретации, повреждения при передаче или хранении и т.д.). В-четвертых, должны учитываться различные условия и критерии, применяемые к данным (например, набор данных должен быть достаточно большим, чтобы содержать значимое описание объекта, достаточно подготовленным, чтобы имелась возможность обработки имеющимися методами, и др.). В-пятых, в разных случаях должны учитываться различные условия и критерии. И т.д.
    Подготовка данных включает ряд процедур, например, оценка данных, определение требований к ним, их предварительная обработка, кодирование и т.п.
    Предварительная обработка данных включает в себя в основном
– очистку данных (Data clеаnsing), 
– редактирование данных (Data еditing),
– редукцию данных (Data rеductiоn),
– преобразование данных (Data wrаngling).
    Очистка данных – это процесс обнаружения, исправления или удаления неполных, неправильных, поврежденных или некорректных данных. Часто осуществляется улучшение данных, когда данные делают более полными путем добавления соответствующей информации. Очистка данных может также включать нормализацию данных, которая представляет собой процесс объединения различным образом представленных данных в единое целое, имеющее единообразное представление, один формат.
     Отдельно отметим, что очистка данных отличается от предваряющей ее проверки данных тем, что проверка почти всегда осуществляется при получении данных, т.е. до осуществления какой–либо их обработки, например, той же очистки.
    После очистки набор данных должен быть согласован с другими наборами данных в системе и параметрами методов. 
    Редактирование данных – это процесс, включающий корректировку проверенных и предварительно обработанных данных в целях соответствия их форматам процедурам анализа.
    Редукция данных – это преобразование форматов данных, включая сокращение данных до значимых совокупностей.
    Преобразование данных (адаптация, оспаривание, обработка, пререкания, или мунгинг) – это преобразование данных из предварительных форм с целью сделать их подходящими для последующих процедур, например, для визуализации данных, агрегирования данных, обучения  модели и др. 
    Анализ данных, которые не были тщательно проверены на наличие таких проблем, может привести к ошибочным результатам. 

Построение моделей: классификацию и построение моделей обсудим отдельным образом (см. следующую статью).

Применение модели, или исследование данных, включает в себя процессы, уже рассмотренные ранее (см. «Основные задачи и позиции»): классификация и др.
    В их ходе применяются различные процедуры и методы, которые позже будут рассмотрены в отдельном Разделе «Методы обработки данных».

Проверка результатов обусловлена тем, что анализ данных может дать результаты, которые не являются актуальными.

Отдельно отметим, что после завершения второй главы настоящего Раздела кроме Раздела «Методы обработки данных» будут сформированы
– Раздел «Данные», так как практически все вышесказанное относится к ним, а они и в Data Mining и в науках корректно не определены,
– Раздел «Информационные технологии», так как вопросы обработки данных в диалектике рассматриваются гораздо шире, чем в науках и информационных технологиях, и кроме того стоит вопрос о создании принципиально нового подхода к ним, включающего изменение представлений об информатике и создание информационной парадигмы.


Б. Анализируя методологию Data Mining, можно относительно нее (и других информационных технологий) сделать следующие выводы:
– постановка задачи является определяющим, смысловым этапом Data Mining, от которого зависит ее содержание и весь ход ее исполнения,
– подготовка данных может быть весьма длительным этапом, занимающим большую часть реализации Data Mining, так как качество данных является ключевым моментом, включающим не только критерии (например, полноту, точность, своевременность и возможность интерпретации данных), но и обеспечение (функциональные аспекты, например, обычно акцентируемые процессы извлечения, преобразования и загрузки данных),
– анализ построения моделей позволяет сделать вывод о том, что идеальной, точной и полной модели создать невозможно по ряду причин, в том числе связанных с полнотой и формированием данных, с методами их обработки и др.: модель всегда обладает рядом недостатков, погрешностей и т.п. – поэтому обычно происходит построение различных моделей, но оказывающихся частичными по своей сути и часто противоречащими друг другу,
– проверка и оценка моделей необходимы для установления их соответствия исследуемому объекту и реализуются обычно путем тестирования, однако понятие соответствия (достоверности, адекватности и т.п.) является относительным, условным, так как невозможно установить полное соответствие модели исследуемому объекту хотя бы по причине относительности, частичности и субъективности данных,
– выбор модели зависит от слишком многих факторов и поэтому является субъективным и относительным,
– применение модели ограничено вычислительными возможностями.

Поэтому в литературе по Data Mining всегда отмечается, что применение Data Mining не является гарантией получения достоверных знаний и принятия на основе этих знаний верных решений.


В. Анализируя методологию Data Mining, можно с учетом предыдущих статей установить следующие ее негативы.
    Во-первых, данные зависят от изучаемого объекта и методов их получения и сбора, но это простое положение, как будет показано в Разделе «Данные», недооценивается в Data Mining в частности и в информационных технологиях вообще, прежде всего, по таким причинам, как
– некорректное определение данных в науках, т.е. тех объективных характеристик объекта, которые обычно сразу же оказываются субъективными, что вроде бы понятно, однако делает таким образом понятые данные относительными и в большинстве случаев недостаточно соответствующими объекту,
– искажения данных в силу отсутствия учета процесса их восприятия, в том числе их усечения в силу как невозможности получения всех данных об объекте, так и объяснения ряда из них (эти вопросы будут рассмотрены отдельно),
– искажения данных сознанием (воспринимающим человеком), что вообще не учитывается в науках и в информационных технологиях.
    Указанное и ряд других обстоятельств определяет, с одной стороны, такие процедуры как очистка данных, их проверка, редукция и т.д., а, с другой стороны, ряд диалектических выводов и развивающих положений.
    Во-вторых, не учитываются многие данные:
– сущностные положения (которые для наук определяются Кантовским концептом вещи в себе и поэтому не доступны научному познанию),
– данные, не выявленные в процессе их сбора,
– данные, потерянные в ходе предварительной обработки,
– данные, потерянные или искаженные в силу изменения их сознанием,
и др.
    В-третьих, не выявляются альтернативные, качественно иные данные и решения, которые должны были бы быть получены на основе одних и тех же имеющихся данных (возможности обыкновенной логики не позволяют это сделать).
    В-четвертых, не выявляются данные и решения, не следующие напрямую из обработанных данных, в частности потому, что в науках до сих пор так и не определен интеллект (см. «Проблемы определения интеллекта в науках»).
    В-пятых, обычно не исследуется решения по изменению среды, окружающей объект, в целях реализации его требуемого развития.
     Существенны и другие негативы.

Главный вывод: Data Mining, как и вообще научное познание (рассудок), имеет дело а) со внешними проявлениями объекта исследования, а не с его сутью (понятием), даже не с определениями бытия, причем б) случайным образом, так как не затрагивает сущность, необходимость, да еще в) субъективно, исходя из взглядов и мнений специалистов и формальных регламентов, а не объективно, не согласно существу дела (объекта исследования) – в общем ограниченно, не по существу и несистемно.

Иными словами, возможности Data Mining – это ограниченные возможности рассудка, который не познает сущность (вещь в себе) и не может продвинуться далее познания законов, что ограничивает познание объекта рассудком и в то же время обусловливает существо Data Mining – поиск закономерностей, паттернов; однако это – ограниченный функционал, который можно качественно развить, что и стало содержанием одной из задач диалектического программирования.
     То есть Data Mining – логичный продукт ограниченных возможностей рассудка, хотя в отдельных ее процедурах проскальзывают положения разумности, но непознанность в науках сознания не позволяет им использовать его возможности, что в современной диалектике привело к мысли о создании принципиально новых информационных технологий, начиная с парадигмы Data Gеtting.




Облачные зоны закрыты до новых дискуссий.