(Предметные области Data Mining)
Предметные области технологии Data Mining
.
- 14.03.21 г.
- 9772225665000    21010


А. Интересным и важным является различение направлений применения и предметных областей технологии Data Mining (далее – Data Mining), данные которых обрабатываются с помощью этой технологии, причем в смысле не только анализа ее функционирования, используемых в ней методов и программных продуктов и т.п., что важно для ее понимания и использования, но и определения ряда ее критичных позиций и даже негативов (правда, в основном вызванных использованием общеизвестной логики, см. «Логика, или обыкновенная логика»), которые позволяют выявить положения, крайне необходимые при формировании более продвинутых информационных инструментов.

Можно выделить два направления применения Data Mining: как массового продукта и как инструмента для проведения уникальных исследований. Такое понимание применения Data Mining является классификационным, не несущим особой смысловой нагрузки, поэтому рассматриваться не будет.

Определение предметных областей следует понимать как функциональное – это те сферы, в которых применяется Data Mining. Однако, следует обязательно уточнить, преобладает вариант определения предметных областей согласно западным представлениям, обычно указываемых практически в любой литературе по Data Mining:
- бизнес,
- исследования для правительства,
- наука,
- Web-направление.
    Основные направления первой сферы: банковское дело, финансы, фондовый рынок, страхование, производство, транспорт, сельское хозяйство, телекоммуникации, электронная коммерция, маркетинг, организация и ведение бизнеса, торговля, в том числе розничная торговля, реклама, страхование, безопасность, управление человеческими ресурсами, взаимоотношения с клиентами и др.
    Основные направления второй сферы – это поиск лиц, уклоняющихся от налогов, средства в борьбе с терроризмом и т.п.
    Основные направления третьей сферы: медицина, биология, молекулярная генетика и генная инженерия, биоинформатика, астрономия, метепрогнозирование, прикладная химия, исследования, касающиеся наркотической зависимости.
    Основное направление четвертой сферы – это, в основном, поисковые машины.

На сегодняшний день наибольшее распространение технология Data Mining получила при решении задач первой сферы, поэтому для наглядности остановится на детализации ее четырех направлений.
    Основные задачи DataMining в промышленном производстве:
- комплексный системный анализ производственных ситуаций,
- краткосрочный и долгосрочный прогноз развития производственных ситуаций,
- выработка вариантов оптимизационных решений,
- прогнозирование качества изделия в зависимости от параметров технологического процесса,
- обнаружение скрытых тенденций развития производственных процессов,
- прогнозирование закономерностей развития производственных процессов,
- обнаружение факторов, влияющих на производственные процессы,
- обнаружение и идентификация взаимосвязей между производственными параметрами и факторами влияния,
- анализ среды взаимодействия производственных процессов и прогнозирование изменения ее характеристик,
- выработка оптимизационных рекомендаций по управлению производственными процессами.
    Основные задачи Data Mining в сфере розничной торговли:
- анализ покупательской корзины,
- анализ покупательских возможностей,
- исследование товарных запасов,
- создание прогнозирующих моделей.
    Основные задачи Data Mining в сфере банковского дела:
- сегментация клиентов,
- прогнозирование изменений клиентуры,
- выдача кредитов,
- привлечение новых клиентов,
- выявление способов и предотвращение фактов мошенничества.
    Основные задачи Data Mining в сфере фондового рынка:
- прогнозирование финансовых инструментов и индикаторов,
- прогноз тренда финансового инструмента и его силы,
- определение существа, особенностей и структуры рынка, отрасли, сектора и т.д. по
некоторому набору характеристик,
- прогноз волатильности того или иного показателя,
- оценка рисков,
- анализ и выбор активов.

(Мы еще выделяем направления и этапы обработки данных, которые соответствуют применяемым инструментам и специальностям, например, соответственно: а) Analysis, Data Sci­ence, Big Data, Machine Learning, Deep Learning, Ar­ti­fi­cial In­tel­li­gence и б) Data Manager, Data Analyst, Data Mining Specialist, Data Scientist, Data Engineer, Business Intelligence Developer, Big Data Engineer. О них будет сказано отдельно в последующей статье и соответствующем Разделе сайта.)


Б. Анализ предметных областей и их направлений (и соответствующих программных реализаций) имеет много нюансов, которые можно учесть а) при более подробном изложении, которое занимает довольно большой объем, но на него сейчас отвлекаться нет смысла, или б) в интерактивном режиме, в силу которого детали этих положений могут быть обсуждены отдельно в дискуссиях, если будут пожелания пользователей; однако принцип их анализа можно представить, проанализировав материалы статьи «Основные задачи и позиции Data Mining». Но укажем главное: это – исследование соответствующих им негативов и установление ряда общих черт последних, важных для критики существующих возможностей обработки данных и для создания в современной диалектике более совершенных вариантов информационных инструментов и соответственно их более совершенных модификаций.
    Отметим, что вопрос даже не столько в том, что оба указанных выше общеизвестных подразделений определены специалистами Data Mining субъективно и не охватывают всего спектра практических задач, требующих решения, сколько в том, что, во-первых, очевидна неопределенность (случайность) применения Data Mining, или ее применение обусловлено попытками приложения имеющимися в ее распоряжении методов фактически к чему ни попадя. При этом довлеет мнение о том, что вроде бы может решаться любая задача, но ведь во всем объеме литературы по Data Mining перечислены далеко не все существующие области человеческой деятельности, поэтому уже не все задачи решаются. И не доказано и даже не рассмотрено положение о том, а могут ли решаться все задачи в указываемых областях?
    Кроме того, во-вторых, в силу неопределенности предмета, точнее – его случайного многообразия, очевидна неоднозначность в понимании данных (об этом будет отдельный разговор) и их подготовки для обработки для использования методов, вплоть до очевидности субъективности и даже произвола в реализации последних, что вызывает во многих случаях вопросы к корректности применения методов и осуществлению решений.
    Это значит, в-третьих, что совокупность методов на самом деле не совершенна (и это еще одна важная причина первостепенности и особой важности исследований в части обработки данных, включая прогнозирование и принятие решений), что опять же акцентирует вопрос о целесообразности применения Data Mining и ее возможностях.
    При этом, в-четвертых, задача применения Data Mining и ее методов не анализируется специалистами предметным образом (например, экономическая ситуация на основе экономической науки), а делаются лишь отрывочные экспертные заключения, да и то большей частью в смысле подготовки данных для обработки. Иными словами, любая решаемая в Data Mining задача, оказывающаяся предметом технологии, остается внешней имеющемуся арсеналу средств и даже исследуемому объекту (ситуации), что ставит под вопрос не только корректность Data Mining, но и целесообразность ее применения во многих случаях, требующих адекватности объекта  постановке задач и методам.
    Поэтому, в-пятых, как получается, Data Mining фактически имеет неопределенное применение, а это уже принципиальная, качественная ее характеристика, причем негативная, которая, конечно же, вряд ли будет указываться ее специалистами и разработчиками программных продуктов для нее.
    Существенны и другие критические доводы и положения, которые будут рассмотрены позже, в отдельной статье сайта.
    В целом же в силу неопределенности предмета, объективности сбора данных, корректности применения методов и иных методологических причин можно сделать вывод о том то, что Data Mining нельзя считать научно обоснованной технологией (что и так, впрочем, часто признается), пусть и используются в ней методы статистики, математики и т.д., но это уже ставит вопрос о возможности применения Data Mining в том виде и объеме, в которых она применяется.
    Этот вывод не является критичным для наук и для применения совокупности инструментов (технологий), которые на первый взгляд более-менее адекватно используются (ведь, например, и в математике не известно, что такое бесконечность, бесконечно малые величины, но дифференциально-интегральное исчисление применяется, хотя это весьма серьезная проблема, которая также не афишируется по понятным причинам).
    Однако этот вывод принципиально важен для диалектики, в которой для познания не применяются необоснованные инструменты.
    Важность и значение осмысления указанного вывода можно сформулировать следующим образом: объективно необходим пересмотр сфер, методологии и форматов применения Data Mining, что и было сделано в диалектическом программировании, в том числе по двум следующим причинам:
- выяснение обстоятельств корректного применения Data Mining,
- формирование посылок определенных развивающих представлений, которые были положены в основу диалектической информационно-технологической разработки.
    При этом позиции осмысления указанного вывода важны в смысле ряда следующих аспектов: критика Data Mining, нахождение решений по ее развитию, развитие представлений об обработке данных, формирование диалектической информационной технологии и др.