(Анализ специальностей.)
Анализ специальностей, связанных с осуществлением технологии Data Mining.
- 21.03.21 г.
- 9772225665000    21011


В данной статье будут рассмотрены три основные специальности, связанные с осуществлением технологии Data Mining (далее – Data Mining), и сделаны некоторые выводы.


А. Начнем с основной специальности.
    Специалист по добыче данных (Data Mining Specialist) – это специалист, занимающийся работой с данными, начиная с их поиска, подготовки и структурирования, включая поиск скрытых данных, закономерностей и связей, и заканчивая созданием предикативной модели в целях осуществления прогнозов и предложения решений.
    В процессе обработки данных специалист по добыче данных фокусируется на выявлении неизвестных, скрытых данных, связей и закономерностей, в том числе выявляет
– данные, которые ранее не были известны,
– знания, которые нельзя обнаружить при обычном анализе.
    Специалист по добыче данных определяет ценность полученной информации и оценивает то, как она относится к предмету исследования или к конкретной, поставленной перед ним задаче.
    Для решения поставленных задач специалист по добыче данных должен использовать набор методов и инструментов, позволяющих осуществить поиск «скрытых знаний», поэтому должен обладать, по меньшей мере, следующими навыками:
– умение находить и подготавливать данные,
– знания в области математики,
– знания в области математической статистики,
– знания в области программирования,
– умение программировать на одном или нескольких языках,
– знание методов и алгоритмов машинного обучения (Machine Learning),
– владение навыками работы с большими данными (Big Data), включая использование стандартных программных средств.


Б. Даже краткая характеристика деятельности специалиста по добыче данных дает представление о многих его навыках и исполняемых им функциях, а в смысле диалектики интересным является различие конкретных его специализаций, которые коррелируют с общеизвестными специальностями этой технологии.
    Иными словами, интересным оказалось различение предметных процессов Data Mining, точнее – конкретных специализаций, специальностей этой технологии, без которых она, можно сказать, не может быть реализована:
– специалист по извлечению скрытых данных (Data Mining Specialist),
– специалист предметной области (Domain expert),
– администратор баз данных (Database administrator).
    Можно выделить также и дополнительные (лучше сказать – дополняющие) специальности; это, в основном, специалисты по информационным технологиям и менеджеры:
– специалист по IT архитектуре (IT Architect),
– специалист по архитектуре решений (Solution Architect),
– специалист по архитектуре данных (Data Architect),
– специалист по моделированию данных (Data Modeler),
– инженер по данным (Data Engineer),
– эксперт Data Mining (Data Mining Expert),
– деловой аналитик (Business Analyst),
– менеджер проектов (Project Manager),
– специалист  по управлению проектами (Data Manager),
а также другие специалисты: Business Intelligence Developer, Data Analyst, Data Scientist, Big Data Engineer и др.
    Особенными являются следующие специальности, о которых отдельно скажем ниже:
– аналитик данных (Data Analyst),
– специалист по данным (Data Scientist).

Аналитик данных (Data Analyst) – это специалист, занимающийся сбором и изучением данных и осуществлением выводов: он исследует предметную область, проводит описательный (дескриптивный) анализ данных, интерпретирует их, ищет закономерности, изучает количественные и качественные показатели и представляет данные и результаты их обработки в установленной форме.
    Обычно в круг задач аналитика данных входит следующее:
– сбор информации,
– подготовка данных для проведения анализа,
– анализ данных,
– выявление особых характеристик данных,
– осуществление выводов,
– визуализация данных и выводов, упрощение понимания важных тенденций,
– формирование предложений для целевых проектов или просто улучшения определенных показателей,
– презентация результатов.
    Ключевыми навыками аналитика данных являются
– знание предметной области,
– владение статистикой, дискретной математикой, теорией вероятностей и методами системного анализа,
– знание языков программирования,
– умение  работать с базами данных, хранилищами данных и аналитическими системами,
– обладание навыками визуализации информации, в том числе знание соответствующих специализированных средств,
– презентационные навыки.

В силу разнообразия прикладных сфер, решаемых задач и методов появилось много специальностей, характеризуемых аналитической деятельностью, в основном в сферах бизнеса, финансов, инвестиций, рекламы, веб-продуктов, причем в ряде случаев тем или иным специалистам-аналитикам даже не обязательно владеть всем набором указанных выше навыков (особенно в части математики, информатики и программирования): это предметные аналитики (например, бизнес-аналитики, финансовые аналитики и т.д.).
    Однако для специалистов в области Data Mining актуальна и противоположная тенденция – расширение набора навыков и применяемых инструментов, которыми они обладают, что привело к качественным функциональным и профессиональным изменениям и в определенной мере обусловило появление такой специальности, как специалист по данным.

Специалист по данным (Data Scientist), или исследователь данных, занимается анализом больших объемов в основном неструктурированной информации в целях создания прогнозов.
    От специалиста по данным требуется умение извлекать из данных максимальное количество сведений и проектировать алгоритмы, которые будут давать ответы на поставленные вопросы. 
    Итог работы специалиста по данным – это  модель, которая дает оптимальное решение поставленной задачи.
    Основными навыками специалиста по данным являются:
– знания в предметной области,
– умение анализировать полученную информацию,
– навыки подготовки данных,
– хорошая математическая подготовка,
– владение методами математической статистики,  машинного обучения, предикативной аналитики и т.д.,
– знание программирования и владение возможностями машинного обучения,
– умение разрабатывать алгоритмы,
– умение работать с большими данными,
– презентационные навыки.
    Как видно, многие позиции совпадают с навыками аналитика данных.
    Основные направления работы специалиста по данным:
– сбор данных и преобразование их в удобный формат,
– обработка и анализ больших массивов, в основном, неструктурированных данных с помощью методов статистического анализа и построения математических моделей,
– применение аналитических методов, в том числе машинное обучение и текстовая аналитика,
– нахождение в данных структур, связей и закономерностей в данных,
– построение моделей,
– осуществление прогнозов.
    Можно сказать, что специалист по данным – это универсальный специалист, который обладает навыками специалиста по добыче данных и аналитика данных.


В. Анализ специальностей показывает, что несмотря на их специфику, во-первых, в погоне за совершенством обработки информации перечни навыков, необходимых специалистам любой из указанных специальностей, стали практически неотличимыми друг от друга, так как конкуренция заставляет расширять инструментарий и обретать новые навыки, и происходит размывание границ указанных специальностей. Например, специальность Data Analyst, все более и более впитывая в себя функционал ряда специальностей, становится все более сходной со специальностью «специалист по данным» (Data Scientist).
    Однако, во-вторых, знать все инструменты Data Mining – методы, алгоритмы, программные средства и т.д. – практически невозможно, что ведет не только к трудности и даже сумбуру в их применении, но и к снижению качества исполнения технологии. Иными  словами, пригласить специалиста, который много чего знает, еще не гарантирует то, что он будет знать то, что нужно в конкретном случае. Или в общем случае нет гарантии того, что удастся установить алгоритм решения задачи и нужные для него инструменты (а это, кстати, существенный негатив Data Mining). Поэтому уже требуются знания о знаниях и услугах в области Data Mining, или специалисты, имеющие знания  о специалистах Data Mining (о чем уже было сказано на сайте).
    Таким образом, выводом является утверждение о том, что унификация специальностей, используемых в Data Mining, приводит к снижению ее эффективности, что уже все чаще отмечается в различной литературе, но пока как некоторый негатив, а не серьезный недостаток.

Для диалектического анализа Data Mining более важным моментом является не схожесть навыков, умений и методов и их обобщение, что мало чего дает для анализа и совершенствования той технологии (и именно поэтому все более возрастают негативы этой технологии), а их различия (что позволило в диалектическом программировании сделать ряд важных выводов, способствующих осмыслению информационных технологий и созданию новых).
    Наиболее важным является различие следующих двух специальностей: аналитика данных и специалиста по данным.
    Главное их отличие заключается в следующем: аналитик данных занимается дескриптивным анализом данных и их интерпретацией, а специалист по данным создает модель. Нагляднее и удобнее представить различия в следующей таблице:

Аналитик данных

Специалист по данным

исследование явных закономерностей

поиск скрытых закономерностей

описательный (дескриптивный) анализ данных и их интерпретация

построение модели для оценки объекта, проверка гипотез

поиск возможностей для улучшения показателей

предсказание результата

использование существующих методов

создание новых решений

работа со структурированными данными 

работа с неструктурированными данными 

решение задачи

тестирование гипотез

фокусировка на прошлом и текущем состояниях

фокусировка на прогностических аспектах

скорость исполнения работы достаточно высока

задание исполняется достаточно долго (могут потребоваться месяцы)

обычно самостоятельная работа над проектами

работа в содружестве со многими специалистами, в основном, в областях данных, программного обеспечения и объекта



Различия оказались важными для уточнения и параметризации функционалов обработки данных и затем для переосмысления информационных технологий.

Однако более важным для анализа и критики Data Mining и развития новых представлений стало подтверждение следующих положений, правда, ранее уже выявленных в тех или иных их чертах.
    В Data Mining
– используется обыкновенная логика (содержание которой Гегель удостоил презрения, см. «Лoгикa, или oбыкнoвeннaя лoгикa»), порочность которой заключается в наличии в ней ничтожных законов, широко применяемых именно при анализе, без которого Data Mining  невозможно представить,
– не учитываются не только данные, не выявленные в процессе их сбора, но и сущностные положения (которые для наук определяются Кантовским концептом вещи в себе и поэтому не доступны объективно-научному познанию),
–  не выявляются альтернативные и тем более качественно иные решения, которые должны быть получены на основе одних и тех же имеющихся данных (возможности обыкновенной логики не позволяют это сделать),
– не выявляются решения, не следующие напрямую из обработанных данных, в частности потому, что в науках до сих пор так и не определен интеллект (см. «Проблемы определения интеллекта в науках»),
– не исследуется решения по изменению среды, окружающей объект, в целях реализации его требуемого развития (например, экономического субъекта, конкретного бизнеса и т.д.),
и др.


Г. Выявленные критичные для Data Mining положения и различия, связанные с ее осуществлением, оказались принципиально важными
– для осмыслении понятия данных и информации, корректных определении которых нет в науках и информационных технологиях, что привело к появлению многих негативов в последних,
– для переосмысления процессов обработки данных,
– для создания качественно нового подхода к переосмыслению информационных технологий и созданию новых,
– для обозначения базовых позиций развития исследований и формирования основ и содержания диaлeктичeскoй лoгикo-инфoрмaциoннoй парадигмы Data Getting,
– для создания новых прикладных дисциплин, вычислительных инструментов и специализированных технологий, в том числе предметной диалектической технологии сбора, подготовки и обработки данных и обоснования решений в области экономики (Economy Data Getting),
– для формирования новой специальности (на базе специальности инженер-системотехник) Data Strategist – специалист по стратегии обработки данных и принятия решений, или специалист в области Data Getting,
о чем будет сказано в этом Разделе и других Разделах («Данные» и «Информационные технологии»).

 

Облачные зоны закрыты до новых дискуссий.