Основные компоненты Data Mining.
- 28.02.21 г.
- 9772225665000    21009


Кроме задач и позиций осуществления технологии Data Mining (далее – Data Mining), указанных в предыдущей статье («Основные задачи и позиции  Data Mining»), следует рассмотреть ее системы, подходы, форматы и способы реализации (в свою очередь включающих ряд инструментов, например, методы прикладной статистики, распознавание образов, методы искусственного интеллекта, теории баз данных и др., которые далее будут рассмотрены отдельно).


А. В данной статье кратко рассматриваются лишь некоторые системы и способы Data Mining, так как они, как и задачи, имеют большое значение
– для описания и понимания этой технологии,
– для выявления ее слабых сторон и ее критики,
– для развития представлений об информационных технологиях.

Алгоритмы ограниченного перебора предназначены для нахождения закономерностей или заданных ситуаций в данных на основе вычислений частоты сравнительно простых логических событий или их комбинаций, на основе которых делается заключение о полезности и возможности применения конкретных событий или комбинаций для решения той или иной задачи (например, ассоциация, классификация, прогнозирование и др., см. «Основные задачи и позиции  Data Mining»).
     Недостатки:
– фактически только эвристический поиск простых логических событий,
– ограниченность выборки (перебора вариантов),
– ограниченность возможностей выявления логических правил, так как максимальная длина анализируемой комбинации ограничена,
– сравнительно малая скорость алгоритма, ибо он получает решение за приемлемое время только для сравнительно небольшой размерности данных.

Системы рассуждений на основе аналогичных случаев основываются на том, что для осуществления прогноза и правильного решения целесообразно найти и использовать близкие аналоги, в которых ответы были правильными или хотя бы приемлемыми.
    Недостатки:
– произвольный выбор критериев аналогии («близости»),
– решения основываются на совокупности доступных (зафиксированных) данных, выбор которых субъективен, относителен, а полноту и достоверность результатов нельзя в общем случае считать достаточной,
– нет возможности создавать модели или принципы, обобщающие опыт или вырабатывающие правила применения подхода.

Деревья решений являются одним из наиболее распространенных подходов, в котором создается иерархическая древовидная структура на основе принципа «если-то», соответственно относящие ситуацию или ее моменты к конкретному классу.
    Поход обладает наглядностью и понятностью.
    Недостатки:
– ограниченность перебора,
– реализуются простой последовательный просмотр признаков,
– выявляются по сути лишь частичные и случайные закономерности,
– нет возможности находить оптимальные (тем более лучшие – наиболее полные и точные) решения.

Нейронные сети – класс систем, структура которых имеет некоторую аналогию со строением мозга (правда, слабую и можно даже сказать относительную, а название используется практически только в силу красивого звучания): как бы имитируется работа нейронов мозга – ряда элементов (как бы нейроны) в составе иерархической сети (как бы мозга), в которой каждый элемент одного уровня (слоя) соединен с элементами другого уровня. На элементы первого (входного) уровня подаются входные данные, которые рассматриваются как сигналы, передающиеся на следующий уровень и т.д., изменяясь в зависимости от коэффициентов. Значения коэффициентов – это параметры связей между элементами. На выходе элемента последнего (выходного) уровня образуется значение, которое рассматривается как отклик, реакция сети на входной сигнал.
    Для оптимального использования нейронных сетей их следует модифицировать в соответствии с характеристиками среды, что осуществляется на основе корректировки коэффициентов с учетом ранее полученных результатов – известных откликов на входные сигналы. Адаптация (тренировка) заключается в подборе и изменении коэффициентов таким образом, что обеспечивается наибольшее соответствие реальных откликов сети к ее откликам, ответам, считаемым правильными.
    Недостатки:
– необходимость большой обучающей выборки,
– невозможность интерпретации и тем более анализа информации (знаний) о системе на основе значений коэффициентов сети, т.е. существо обработки данных по сути остается невыявленным (т.е. просто-напросто используется некая работающая структура, как например дифференциально-интегральное исчисление, для которого неопределенным остается понятие бесконечности (бесконечно-малой), которую обычно даже рисуют (!), что является, по меньшей мере, оксюмороном).

Статистический подход: основное внимание в нем уделяется классическим методикам – корреляционному, регрессионному, факторному анализу и другим (они на сайте будут рассмотрены отдельно).
     Недостатки:
– сложность,
– высокое требование к специальной подготовке пользователя (или неизбежность привлечения профильных специалистов),
– использование усредненных характеристик выборки, которые, как уже указывалось, в основном являются фиктивными величинами.

Эволюционное программирование – подход, существо которого более-менее отражено названием.
    Одно его направление основано
1) на поиске закономерности или даже программы, которая удовлетворительно выражает требуемую зависимость,
2) на внесении изменений в соответствии с заданными критериями.
    В результате создается несколько совокупностей программ, которые различаются в смысле а) выражения искомой зависимости, б) ее обработки и в) точности ее описания.
    Второе направление основывается на поиске зависимости целевых переменных от остальных в форме функций какого-то определенного вида.

Генетические алгоритмы – подход, существо которого также более-менее отражено названием.
    Для его осуществления сначала реализуется компоновка ряда логических закономерностей, которые называются «хромосомами», а весь набор таких закономерностей называют «популяцией хромосом». Потом определяется способ сопоставления различных хромосом. Затем популяция изменяется с помощью задаваемых процедур (как бы аналогов мутаций), по своей логике как бы аналогичных биологическим (обычно говорится о мутации генов, миграции генов и т.п.). В ходе применения процедур на каждой их стадии (стадии эволюции) получаются популяции со все более совершенными свойствами.
    Подход имеет преимущество, которое заключается в том, что алгоритмы можно распараллеливать и, более того, использовать отдельные наработки одного из них в другом (как бы горизонтальная миграция генов).
    Недостатки.
– критерии отбора хромосом и используемые процедуры являются эвристическими и не гарантируют нахождения оптимального решения,
–  непредсказуемость: возможно неконтролируемое развитие негативного варианта или наоборот неожиданное получение непредсказанного хорошего результата.

Предметно-ориентированные аналитические системы представляют собой совокупность методов анализа и прогноза динамики объекта, основанных на различных эмпирических моделях. Эти методы обычно используют несложный статистический аппарат и максимально учитывают сложившуюся в соответствующей области специфику.


Б. Анализ систем, подходов, форматов и способов Data Mining и соответствующих программных реализаций имеет много нюансов, которые можно учесть только в интерактивном режиме, поэтому детали этих положений будут обсуждены отдельно в дискуссиях. Однако принцип их анализа можно представить, проанализировав материалы предыдущей статьи («Основные задачи и позиции  Data Mining»).
    Главное же в их анализе – это исследование их негативов и установление ряда общих черт последних, что никогда не делалось в информационных технологиях, а было осуществлено только в диалектическом программировании и дало существенные результаты в смысле как критики существующих возможностей обработки данных, так и создания для современной диалектики более совершенных их вариантов и соответственно более совершенных информационных технологий – диалектических информационных технологий, принципиально важных для алгоритмизации и совершенствования современного диалектического познания, что, как уже неоднократно отмечалось, валяется одной из важнейших задач современной диалектики.