(Данные в Dаtа Mining.)
Анализ понятия данных в Dаtа Mining.
- 10.05.21 г.
- 9772225665000 21017
Анализ данных, являющихся в диалектическом программировании самостоятельным предметом исследования (см. «Данные как предмет исследования»), целесообразно начать с их понимания и определения в хорошо известной технологии Dаtа Mining (далее – Dаtа Mining) (см. «Часть 2. Анализ технологии Dаtа Mining»), ибо в ней парадоксальная и критичная по своей сути ситуация с пониманием и определением данных наиболее очевидна, и при этом ее анализ возможен на основе рассуждений с достаточно простыми определениями, известными из обширной литературы по Dаtа Mining (см. «Литература по Dаtа Mining»). Но сразу же отметим, что выявляемые проблемы в основном связаны с противоречивыми представлениями о данных в науках, о чем будет сказано отдельно в последующих статьях Раздела.
А.Данные.
А1. Данные в Dаtа Mining понимаются как сведения о чем-либо, т.е. определятся через другой, интуитивно понимаемый термин – «сведения» – как то, что может быть получено в результате восприятия, и обычно считаются неосмысленными, необработанными, поэтому-то как раз и подлежащими обработке, что на первый взгляд логично. Но следует учитывать, что сам термин «сведения» не только не определен, аксиоматичен, но и понимается всеми по-разному, однако это игнорируется в Dаtа Mining и информационных технологиях в частности и в науках в целом, возможно, по причине того, что иначе пришлось бы признать некорректность термина «данные», его неоднозначность и субъективность, что несовместимо хотя бы со строгой детерминированностью компьютерных процессов и объективностью заявляемого получения решений, не говоря уже о научности.
Анализируя имеющиеся в литературе по Dаtа Mining представления о данных, можно сделать следующие выводы.
Во-первых, данные обычно понимаются обобщенно – как представления о чем-либо в той или иной форме, пригодной а) для восприятия и понимания человеком и б) для хранения, передачи и обработки, хотя сами эти представления (или иные феномены, предпосылающие данные) при этом не определяются, ибо неопределенность данных попросту смещается в другой термин, который не обсуждается, а предполагается интуитивно понятным, что конечно же не дает определение данных. На этом определение данных в Dаtа Mining по существу и завершается (хотя при этом обсуждаются их отдельные характеристики, свойства…), однако даже не рассматриваются возникающие существенные проблемы (в том числе касающиеся обработки данных и познания).
При этом, во-вторых, учитываются по сути лишь эмпирические, внешние характеристики объекта, так как наукам его трансцендентные (сверхчувственные) свойства недоступны: в первую очередь, им недоступна вещь в себе по Канту, ибо, как показал великий философ в своем труде «Критика чистого разума», возможности рассудка ограничены.
В-третьих, в итоге данными (без всякого обоснования) считается только то, что может быть воспринято, хотя нет ответов на вопросы о том, что и как может быть воспринято в условиях ограниченности научного опыта и материалистической (научной, рассудочной) парадигмы и насколько вообще правильно восприятие, – вопросы, которые в общем-то давно известны и до сих пор актуальны.
При этом, в-четвертых, не имеет ответа вопрос о том, а является ли данными то, что воспринимается человеком? Если «нет», то как воспринимаемое становится данными? Если «да», то что есть воспринимаемое человеком, т.е. данные? – и опять возникает исходный вопрос о данных, сведениях и т.п. И вообще, истинны ли представления человека о чем-либо и отличны ли они от данных?
Эти на первый взгляд очевидные и простые положения недооцениваются в Dаtа Mining в частности и в информационных технологиях вообще несмотря на очевидные субъективность (даже предвзятость) и ограничение данных.
А2. Анализируя методологию Dаtа Mining, в частности «Порядок реализации Dаtа Mining», можно установить следующие ее существенные негативы, связанные с пониманием и определением базового положения – данных.
Во-первых, нет корректного определения данных, т.е. базового положения этой технологии...
Во-вторых, объект воспринимается, по меньшей мере, не полностью, не истинно, но лучше сказать – в основном в своих внешних, а не сущностных характеристиках, поэтому понимание и определение данных связывается лишь с представлениями о внешних характеристиках объекта. Иными словами, не учитываются сущностные положения (которые для наук определяются Кантовским концептом вещи в себе и поэтому не доступны научному познанию).
В-третьих, определение данных относительно, ибо оно зависит от методов их получения и сбора, а также от установок, целей и задач исследователя.
В-четвертых, не учитываются следующие данные:
– данные, не выявленные в процессе их сбора,
– данные, потерянные в ходе предварительной обработки,
– данные, отсеянные в ходе предварительной обработки (например, со значениями, значительно превышающими средние),
– данные, искаженные в силу изменения их сознанием.
В-пятых, не выявляются альтернативные данные, которые должны были бы быть получены на основе имеющихся данных.
Существенны и другие негативы.
Б. Сопутствующие термины.
Б1. Информация обычно понимается как процесс, приводящий к получению данных, причем в разных источниках она понимается по-разному.
С одной стороны, информация понимается как сообщение о чем-либо, как изложение, передача данных, сведений, причем часто отмечается, что информация должна рассматриваться только при наличии ее источника и ее получателя (уточнением является наличие канала связи).
С другой стороны, отмечается, что информация образуется или существует в момент обработки данных с некоторой целью, в момент взаимодействия данных и методов, т.е. в момент процесса обработки данных, который можно понимать и как передачу данных, в том числе в силу неизбежного их перемещения в компьютерной памяти; при этом и передачу данных можно понимать как их обработку, что в совокупности создает предпосылки для взаимозаменяемости понятий «данные» и «информация» и возникновения путаницы с их пониманием и употреблением, что нередко открыто признается в литературе по Dаtа Mining.
Часто оговаривается, что для информации существенна содержательная интерпретация, как в смысле полезности их передачи, так и их обработки. При этом, однако, получается, что тогда данные являются несодержательными, так как у них соответствующее свойство не оговаривается, и часто признается их неосмысленность, но это заведомо противоречит целевой сборке данных (причем по определенным критериям), да еще и для их обработки путем применения тех или иных конкретно определяемых методов и информационных технологий и для принятия целевого решения. А уточнение о содержательности (о том, что должны быть получены «содержательные данные») не только не вносит ясность, но, скорее, показывает необходимость интерпретации, неизбежность субъективности, которая явно не соответствует обычно требуемым безотносительности обработки данных и объективности получения решений, их соответствия реальному положению дел.
Однако главной проблемой определения информации является то, что не дается ее качественного отличия от данных, в результате чего эти два определении обычно путаются, смешиваются, взаимно заменяются и т.п., что либо открыто признается в случаях, когда ситуация некритична, либо попросту игнорируется (или преднамеренно замалчивается, не акцентируется), так как используется (именно за счет подмены терминов), в частности для сглаживания неизбежно возникающих противоречий и парадоксов (которые особенно критичны при рекламе коммерческих продуктов).
Б2. Следует сказать о том, что при обработке данных часто говорится, что требуется в тех или иных целях (!) установить присущий исследуемому феномену (фактически – данным) закон, который обычно определяется как устойчивая связь событий, фактов. Однако эта очевидная установка сталкивается с серьезной проблемой, многие существенные положения которой либо не замечаются, либо игнорируются. Можно указать следующие положения.
Во-первых, под законом следует понимать доказанное утверждение. Иными словами, получение некоторой зависимости не говорит еще о законе, или специалисты по обработке данных, создавая свои рекомендации, используют лишь на первый взгляд правдоподобные соотношения, и поэтому возникает много вопросов к их рекомендациям, которые основаны на выявленных внешних соотношениях, а не на доказанных законах.
Во-вторых, в науках не рассматривается интуитивно понимаемая связь данных с некоторой закономерностью. Можно и так поставить вопрос: супервентны ли законы фактам? В частности, специалистами по обработке данных не обсуждается, а является ли закон присущим данным? Если да, то он их свойство, он сам часть данных. А если нет, то как он должен трактоваться, становится ли он некими «добавленными данными»? И как он должен сопрягается с данными? При этом выявленному закону могут подчиняться и другие данные. Тогда как он связан с различными данными? – например, можно ли выявленную закономерность по заемщикам в одном банке использовать в другом?
В-третьих, получается, что когда ставится задача об обнаружении закономерности данных, то должно подразумеваться нечто новое, но не следующее из самих данных, однако которое должно как соответствовать им и выводиться, так и не только им соответствовать и не только из них выводиться, ибо закон присущ и другим данным. Но обоснования закона не происходит и не может быть на основе ограниченных данных – берется лишь конкретная зависимость, присущая имеющимся данным, а не всем. Иногда берется некоторая закономерность, замеченная ранее в других исследованиях, – некоторое известное, которое предугадывается, ожидается в текущем случае или обнаруживается методом перебора. По сути, в обоих случаях данные и закон попросту случайно сопрягаются, а случайный по своей сущности в этом случае результат берется как таковой для последующих рассуждений.
И в науках существенны трудности определения закона, о чем будет сказано в последующих статьях.
Б3. В результате обработки данных и/или информации образуются знания, которые понимаются как содержательные сведения, полученные в результате обработки первичных, т.е. уже не просто как первичные, случайные и т.п. сведения (данные), а сведения (данные), отражающие предмет и соответствующие определенной осмысленности предмета.
Для получения знаний необходимы определенные действия (процедуры обработки данных и т.п.); но в этом смысле знаниями может считаться и информация в одном из ее значений.
Однако при разговоре о знаниях, по сути, говорится лишь о другом представлении данных (или информации) – не о первичных сведениях об объекте, не о внешних характеристиках объекта, а о его осмысленных, вычисленных и т.п. сведениях: об определениях и свойствах. Такого рода сведения концептуально объективно не отличны от данных, а просто имеют определенное субъективное свойство – осмысленность, да и то относительную, только в смысле определенных критериев и в понимании отдельных людей. То есть по существу знания – это обработанные первичные данные, относительные данные, понимаемые в соответствии с некоторыми требованиями.
Для уточнения и формализации определения знаний в Dаtа Mining указываются их (субъективно аксиоматично утверждаемые) свойства: структурированность, удобство доступа, лаконичность, непротиворечивость, полезность и т.п. как для принятия решений, так и в смысле использования в информационных процессах. И хотя очевидна субъективность, т.е. относительность знаний, главная проблема заключается в том, что в Dаtа Mining качественного отличия знаний от данных (или информации) нет, ибо говорится, по сути, о неких установленных (вычисленных) свойствах, закономерностях или других параметрах объекта, – о данных, просто получаемых не сразу, не замеченных сразу по тем или иным причинам, об обработанных данных.
Интересна такая точка зрения, присущая многим специалистам, наглядно показывающая игру терминов: знания получаются не из данных, а из информации, ибо данные обрабатываются, участвуют в динамических процессах, соответствующих понятию информации.
Б4. В Dаtа Mining отмечается, что именно с помощью знаний решается поставленная задача, поэтому знания часто определяются как результат процесса обработки данных, и именно с ними связан процесс принятия решений, предназначенных для осуществления действий для достижения поставленных целей и являющихся смыслом применения информационных технологий. Однако решение понимается двойственно, в двух смыслах: либо как процесс, либо как итог выполнения неких заданных действий, – что позволяет по-разному применять этот термин в разных условиях. Но оба определения некорректны в силу того, что базовое для них понятие – выбор – не определено, понимается интуитивно, является субъективной операцией, т.е. о строгости и однозначности подготовки материалов (результатов обработки данных) для осуществления решения говорить не приходится. При этом также понятно, что в целом решения принимаются с учетом неких установок, внешних для обработки данных, независимых от них, т.е. по существу очевиден произвол принятия решения, и в результате не только решение оказывается субъективным и случайным, что никак не согласуется со строгостью применения компьютеров, но и необходимость процедур принятия решений ставится под сомнение, а вместе с этим – и самая важная функция информационных технологий.
Б5. В целом же специалисты по обработке данных, не имея представлений о суждениях, которые не определены в науках (см. «Рассудочного суждения в науках несостоятельность»), о логичности обоснования выводов, не столько обосновывают результаты, сколько выражают свое мнение о поставленном вопросе, представляют его в основном по аналогии, или даже попросту интуитивно угадывают развитие событий и акцентируют ряд, по их мнению, важных положений. Таким образом, результат следует понимать не как обоснованный вывод, а как относительный, субъективный, как гипотезу, на которую вряд ли стоит опираться при принятии важных решений. А это дает повод усомниться в научности и обоснованности многих манипуляций, которые используются технологиями обработки данных, в том числе Dаtа Mining, и тогда становятся понятными многие позиции их критического анализа.
В. Исходя из сказанного, можно сделать следующие выводы.
Во-первых, объект в Dаtа Mining в частности и в информационных технологиях вообще воспринимается, по меньшей мере, не полностью, не истинно, но лучше сказать – в основном в своих внешних, а не сущностных характеристиках, поэтому понимание и определение данных, сопутствующих им категорий и их обработки связывается лишь с представлениями о внешних характеристиках объекта и не учитываются сущностные положения (которые, как уже было указано выше, для наук определяются Кантовским концептом вещи в себе и поэтому не доступны научному познанию).
Иными словами, данные в Dаtа Mining в частности и в информационных технологиях вообще являются субъективными и относительными, по сути, случайными, что делает собранные данные в большинстве случаев и необоснованными и недостаточно соответствующими объекту.
Поэтому термин «данные» и сопутствующие ему термины корректно не определены, аксиоматичны, понимаются всеми по-разному, взаимозаменяемы, что однозначно говорит не только о неопределенности этих терминов, но и о серьезности сложившейся проблемы.
Указанное и ряд других обстоятельств определяет
– такие процедуры Dаtа Mining как очистка данных, их проверка, редукция и т.д.,
– невозможность выявления альтернативных данных и данных, не следующих аналитически из собранных и обработанных данных,
– невозможность определения альтернативных решений и решений по изменению среды, окружающей объект, в целях реализации его требуемого развития.
Во-вторых, проблемы, связанные с определением данных, получением знаний и принятием решений, в том числе связанные с отсутствием в науках понимания суждения, ставят под сомнение корректность применения Dаtа Mining в частности и в информационных технологиях вообще.
Иными словами, то, что в Dаtа Mining подразумевается под обработкой данных и получаемыми в результате знаниями, корректно не может быть определено, и в лучшем случае можно говорить о мнениях специалистов в области информационных технологий, которые нельзя считать обоснованными, даже в случае осуществления многих-многих сложных математических расчетов, в которых отсутствуют суждения, логические выводы, логика. Недаром же в литературе по Dаtа Mining говорится о том, что ее применение не дает гарантий получения правильного результата, о чем уже был разговор на сайте. (К тому же следует учитывать, что «В России и станах СНГ… 80% ТОП-менеджеров не имеют базового теоретического образования, не заканчивали вузов и школ МВА, получают свои «университеты» на практике, часто “методом тыка”», см. https://zеn.yаndеx.ru/mеdiа/kuchаvsеgо/оpеrаtivnое-tаktichеskое-i-strаtеgichеskое-uprаvlеniе-tri-stupеni-dliа-rukоvоditеliа-5dcа98b2418cd54d70f29d7е .)
В-третьих, указанные и другие негативы, связанные с пониманием и определением данных (по сути, некорректное определение данных), сводятся в основном к субъективизации и искажению данных, объективных характеристик объекта, прежде всего, по таким причинам:
– применение ограниченных материалистических принципов, не учитывающих сверхчувственные феномены объекта,
– отсутствие учета моментов процесса их восприятия и искажения, в том числе их усечения в силу как невозможности получения всех данных об объекте, так и объяснения ряда из них (эти вопросы будут рассмотрены отдельно),
– искажение данных сознанием (воспринимающим человеком), что вообще не учитывается в науках и в информационных технологиях,
– применение принципов и возможностей обыкновенной логики, раскритикованной еще Кантом и Гегелем.
Кроме того, имеется еще ряд серьезных проблем, которые упорно игнорируется науками и, следовательно, программистами и специалистами в области информационных технологий.
Главный вывод: Dаtа Mining, как и вообще научное познание (рассудок), имеет дело а) со внешними проявлениями объекта исследования, а не с его сутью (понятием), даже не с определениями бытия, причем б) случайным образом, так как не затрагивает сущность, необходимость, да еще в) субъективно, исходя из взглядов и мнений специалистов и формальных регламентов, а не объективно, не согласно существу дела (объекта исследования) – в общем ограниченно, не по существу и несистемно.
Иными словами, Dаtа Mining – логичный продукт ограниченных возможностей рассудка, хотя в отдельных ее процедурах проскальзывают положения разумности, но непознанность в науках сознания не позволяет им использовать его возможности, что в современной диалектике привело к мысли о создании принципиально новых информационных технологий, начиная с парадигмы Dаtа Gеtting.
Г. Негативы, связанные с пониманием и определением данных в Dаtа Mining, позволяют сделать ряд диалектических выводов и сформировать развивающие положения, причем касающиеся не только определения данных и их обработки, но и переосмысления и качественного развития программирования и информационных технологий.
Дискуссии и конференции. Данные