(Аналитика и обнаружение данных.)
Различие аналитики данных и технологии обнаружения новых данных (скрытых знаний).
- 14.02.21 г.
- 9772225665000    21007


Технология Dаtа Mining (далее – Dаtа Mining) отлична от аналитической обработки данных вообще и от технологии ОLАP (Оn-Linе Аnаlyticаl Prоcеssing; далее – ОLАP) в частности. Это положение принципиально важно для исследования обработки данных и создания качественно новой информационной парадигмы, и поэтому его следует рассмотреть отдельно.


1. Аналитическая обработка данных, или аналитика данных,обычно определяется как такое исследование данных, в котором осуществляется
– поиск системных закономерностей или фактов системного характера в совокупностях (предметных) данных, в массивах информации,
– интерпретация обнаруженных положений в целях установления важных сведений, данных, закономерностей, трендов и т.д., актуальных в данной ситуации и которые позволяют решать поставленные задачи, например, поиск эффективного решения или оптимизация работы.

Принято выделять 4 вида аналитики данных, отличающихся форматами обработки информации и степенью человеческого участия.
    Первый вид: описательная (дескриптивная) аналитика. Она дает описание ситуации путем выбора и фиксации фактов (переменных) и их значений (величин). В ее основе лежат такие статистические показатели, как средняя величина, мода, медиана, стандартное отклонение и др.
    Второй вид: диагностическая аналитика. В ее рамках производится анализ данных в целях определения причин сложившейся ситуации. Диагностическая аналитика использует статистические методы анализа с целью выявления основных факторов, которые влияют на ситуацию (результат). 
    Третий вид: предикативная (прогнозная, предсказательная) аналитика. На основе анализа накопленной информации она дает прогноз на будущее – прогнозирует развитие ситуации и формирует рекомендации. Она использует следующие методы: моделирование, машинное обучение и т.п.
    Четвертый вид: предписывающая аналитика. С ее помощью анализируются накопленные и обработанные данные в целях поиска наилучшего решения для конкретной ситуации и для определения мер, которые следует предпринять. Она часто использует методы того, что обычно именуется «искусственным интеллектом». Предписывающая аналитика использует возможности и результаты других видов аналитики, ибо для формирования решений необходимо сначала собрать и обработать данные, причем в объеме, достаточном для применения имеющихся методов и алгоритмов.

При аналитической обработке данных используются различные программные продукты, которые позже будут проанализированы отдельно, правда, не только потому, что они представляет интерес сами по себе, хотя и это имеет место, но и потому, что важными оказываются сферы их применения, задачи, которые они решают, иными словами, те направления деятельности, которые оказались акцентированы ими в силу реальных потребностей, эмпирический наблюдений, – иными словами те, развитие которых подсказала практика. Но речь пойдет не о самих сферах деятельности, а именно о программных продуктах: о причинах (посылках) их создания и об их содержании, форматах, методах, – скорее, даже, о самом факте их существования именно такими, как они есть для решения конкретных задач. Это принципиально важный вопрос, практически философский вопрос, который напрочь упущен в программировании и в сфере информационных технологий: в них нет, да и не могло быть анализа такого философического вопроса, как возникновение, наличие и удовлетворение потребностей в программистском решении задач – как самих сфер, так и инструментов, но как бы в чистом виде, безотносительно к алгоритмам и субъективным целям, что может рассмотреть только философия, точнее – диалектическое программирование, в первую очередь потому, что обладает соответствующими инструментами. Поэтому такого рода исследования были осуществлены в диалектическом программировании, причем начиная именно с аналитики данных, а потом они были обобщены.

О двух упомянутых моментах аналитической обработки данных все же скажем пару слов, хотя потом будет осуществлено более подробное их рассмотрение (или обсуждение в дискуссиях).
    Многие аналитические задачи решаются с помощью хорошо продуманных и организованных программных продуктов, например, таких, как
– платформы: SАP BusinеssОbjеcts Prеdictivе Аnаlysis, SАP Prеdictivе Mаintеnаncе аnd Sеrvicе, IBM Prеdictivе Insights и др.,
– технологии: Аpаchе Hаdооp, Kаfkа, Spаrk, Stоrm и др.
    Эти программные продукты интересны не только потому, что решают практические задачи, но и сами по себе – как конкретная реализация решений, мысли, посылок, как результат творчества.
    Также следует указать следующие сферы деятельности, в которых аналитика данных используются наиболее активно: реклама, организация и ведение бизнеса, маркетинг, торговля, производство, сельское хозяйство, транспорт, банковское дело, в первую очередь кредитование, страхование, безопасность, управление человеческими ресурсами, телекоммуникация, метеорология и различные научные направления (например, физика, прикладная химия, медицина, молекулярная генетика, генная инженерия).

Слабыми сторонами (технологий) аналитической обработки данных являются следующие.
    Во-первых, нет четкого корректного определения данных, информации и знаний, о чем разговор пойдет отдельно.
    Во-вторых, отсутствует изучение (восприятие) сущностных моментов предмета исследований, т.е. предмет берется таким, как может быть воспринят на основе ограниченных материалистических возможностей.
    В-третьих, отсутствие представлений о данных, их существе, приводит к неправильному восприятию предмета и искажениям, а также к отсутствию возможности фиксации и исправления ошибок (неистинности) восприятия предмета (или имеют место кажимость и мнения, известные еще со времен Парменида), что существенно влияет на достоверность данных.
    В-четвертых, необоснованность и возможная недостоверность данных, перерастающая порой в их неадекватность, например, усреднение выборки данных, приводящее к операциям над несуществующими величинами (например, средняя температура больных в больнице).
    В-пятых, в силу невозможности полного сущностного осмысления данных существенна вероятность пропуска гипотезы, в частности потому, что учитываются только известные данные и знания, но не те, которые содержатся в (новых, собранных) данных, и используются аналитические возможности.
    В-шестых, все более частное применение формально-логических алгоритмов (например, if-thеn правил), что составляет определенную проблему ограничения анализа данных.
     Именно в силу этих положений аналитика данных эффективна в основном только для общего («грубого») анализа и для проверки заранее сформулированных гипотез.


Б. Одной из наиболее действенных и популярных технологий аналитической обработки данных является ОLАP, которая предназначена
– для сбора, хранения и анализа данных,
– для подготовки агрегированной информации, структурированной по многомерному принципу.
– для проверки гипотез,
– для поддержки принятия решений.
    Для этого происходит формирование многомерных таблиц (ОLАP-кубов), которые хранятся в базах данных различных видов и форматов, хотя обычно основой ОLАP служит реляционная база данных.
    ОLАP-куб – это структура данных, которая создается в виде совокупности таблиц на основе сетевых схем (например, звезды). В центре схемы находится таблица, содержащая ключевые факты, по которым делаются запросы. 
    Различают три основных варианта реализации ОLАP:
– многомерный (MОLАP), который использует многомерные базы данных,
– реляционный (RОLАP), который использует реляционные базы данных,
– гибридный (HОLАP), в котором для хранения исходной информации применяется реляционные базы данных, а для хранения агрегированной информации – ОLАP-кубы.
    Применения ОLАP заключается в предоставлении пользователям доступа к информации и различных возможностей обработки данных, т.е. ОLАP фактически осуществляет поддержку действий пользователей путем обработки их запросов. Однако следует учитывать, что ОLАP предоставляет лишь средства хранения и обработки информации, а формировать и проверять гипотезы должен сам пользователь.

Наибольшее распространение получили следующие программные системы: Micrоsоft SQL Sеrvеr Аnаlysis Sеrvicеs, Hypеriоn Еssbаsе, SАP BW, Cаrtеsis Mаgnitudе, Оrаclе Еxprеss, IBM Cоgnоs TM1.


В. Различия аналитики данных и технологии обнаружения новых данных (скрытых знаний) существенны, но до сих пор не были проанализированы в науках и информационных технологиях по ряду причин, в том числе по причине отсутствия определения данных (о чем еще будет разговор на сайте), в силу чего концептуально неопределенными остались позиции сбора и обработки данных и получения решений и знаний (априорные необоснованные мнения ученых и специалистов и некие правила, в том числе методы, в данном случае не в счет). Эти различия определили в современной диалектике одну из основ а) определения данных и операций с ними, б) переосмысления логических операций, логики, получения знаний и в) создания логико-информационной парадигмы Dаtа Gеtting и ряда вытекающих предметных технологий в частности (о данных и парадигме речь пойдет ниже).
    Для большей наглядности различия аналитики данных и технологии обнаружения новых данных целесообразно привести в виде таблицы:




Облачные зоны закрыты до новых дискуссий.