(Визуализация данных.)
Визуализация данных как обработка групп данных.
- 29.01.23 г.
- 9772225665000    23003


Перед подведением итогов анализа предобработки данных рассмотрим с точки зрения группирования данных визуализацию данных, так как она обладает рядом из требуемых для наших исследований свойств и аспектов, часть из которых уже была рассмотрена ранее.

Визуализацию данных мы рассмотрим кратко, так как она подробно описана в многочисленной литературе. Но мы ее рассмотрим с позиций ранее обозначенных опорных точек и векторов формирования новых инструментов информационных технологий, в том числе с точки зрения группирования и агрегирования данных.
    Отдельно акцентируем очевидное, но активно используемое в дальнейшем положение: осуществление визуализации данных связано с совокупностями данных и их отдельными группами.
    Таким образом, если обычно при рассмотрении визуализации данных речь идет об отображении обработанных данных, то в диалектике не менее важным считаются такие отдельные вопросы, как обработка групп данных и принципы способов отображения данных. Иными словами, акцент в наших исследованиях смещен с непосредственно визуализации данных и методов ее реализации на ее принципы, что до сих пор в науках и информационных технологиях не рассматривалось.
    Поэтому мы уделим внимание параметрам и свойствам визуализации, а не ее и так всем известным алгоритмам и содержаниям методов ее реализации.


А. Как принято считать, визуализация данных – это представление информации в графическом виде: графики, диаграммы и т.п. То есть визуализация данных предназначена для представления данных в самом информативном виде – визуальном. Визуализация данных систематизирует информацию, помогает четко и наглядно представить ее, акцентировать тренды и т.д. Действительно, числа, особенно если их много, в любых совокупностях (таблицы и т.п.) зачастую не показывают в целом и наглядно имеющуюся ситуацию, тем более, взаимосвязи между данными, процессами, зависимости показателей и т.п., которые, конечно же, могу быть выражены числами, но их понимание и особенно сравнение не всегда является простым, да и требует дополнительных действий и времени. А вот визуализированный формат данных представляет информацию непосредственно, целиком и может акцентировать отдельные процессы, причем даже в их динамике, да еще и сравнительно.
    В силу того, что изображения легче понять, чем аналитически сформированные данные, визуализация данных позволяет решить сразу несколько задач:
– увеличить вовлеченность в анализ данных,
– повысить качество восприятия данных,
– упростить подготовку решений.
    Визуализация может использоваться на любом этапе процесса обработки данных:
– при сборе данных,
– при анализе выборки,
– при выдвижении и оценке гипотезы,
– при исследовании результатов предобработки данных,
– при проведении содержательного анализа данных,
– при оценке промежуточных результатов,
– при исследовании окончательных результатов.


Б. Рассмотрим отдельные аспекты визуализации данных.

По целям визуализация данных делится на презентационную, которая предназначена для представления данных для некоторой аудитории, исследовательскую, которая предназначена для анализа и обработки набора данных, и гибридную (презентационно-исследовательскую).

В целом выделяют два подхода к осуществлению визуализации.
    Первый предназначен для осуществления целостной подачи информации, для чего требуется реализация системы изображений. При таком подходе визуализация данных в основном
– выражает самодостаточную фиксированную информацию, не предназначенную для корректировки,
– является формальной,
– отображает обычно лишь несколько видов однотипных, но больших по объему данных,
– использует заранее определенные методы работы с данными.
    Второй подход предназначен для реализации неформальной, в определенном смысле эргономичной подачи информации. При таком подходе обеспечивается
– возможность одновременного отображения большого числа разнотипных данных небольшого объема,
– возможность демонстрации заданных групп данных, их схожести и различий,
– возможность исследований объекта и его изменений,
– масштабируемость,
– поддержка индивидуальных интуитивных и когнитивных процессов восприятия информации.

Основные принципы визуализации, характерные для всех подходов:
– упорядоченность данных,
– целеопределенность,
– наглядность (доходчивость).


В. Известно много разных возможностей и способов визуализации данных. Мы рассмотрим наиболее популярные из них, удовлетворяющие критериям наших исследований.
    Линейный график: его удобно использовать для отображения динамичных свойств и для сравнения значений. Его основными параметрами являются стили линий (сплошная, пунктирная и др.), цвет линий, толщина линий, маркеры (точка, крестик, треугольник и т.д.). Маркеры расположены в линию, которая показывает изменения исследуемого объекта, процесса. Линейный график обычно применяется для акцентирования той или иной тенденции.
    Диаграмма рассеяния, или точечная диаграмма, – это способ отображения значений двух переменных в виде точек на плоскости. На диаграмме рассеяния каждому значению набора данных соответствует точка, координаты которой соответствуют значениям двух параметров наблюдения. Если предполагается, что один из параметров зависит от другого, то значения независимого параметра откладывается по горизонтальной оси, а значения зависимого – по вертикальной. Диаграммы рассеяния используются для демонстрации наличия или отсутствия корреляции между двумя переменными.
    Пузырьковая диаграмма – это способ отображения трехмерных данных на двумерной плоскости: к двум переменным, расположенным на плоскости, добавляется еще одна, которая отражается размерами меток, кругов, «пузырьков». Таким образом, пузырьковая диаграмма – это линейный график с расширенными возможностями, применяемый для отображения различных зависимостей; вместо точек применяются круги разных размеров, отражающих определенное значение. Использовать такую диаграмму можно для отражения зависимостей.
    Круговая диаграмма – это способ, предназначенный для наглядного отображения частей, долей, показателей в виде частей круга или окружности. Она эффективна для изображения от одной до четырех частей, а если частей больше, то исчезает наглядность изображения. Круговая диаграмма имеет разновидности: диаграмма-круг, диаграмма-окружность, многоуровневая диаграмма и др.
    Гистограмма предназначена для сравнения данных и изображения зависимостей и взаимозависимостей разных данных, которые выражаются столбцами, обычно располагаемыми слитно. В целом порядок столбцов имеет значение: их нельзя менять местами без искажения смысла данных. Обычно гистограммы используются для отображения непрерывных количественных данных интервалами. Значение выражается высотой столбца. Гистограмма эффективна, если необходимо отразить достаточно частые или значительные изменения (при незначительных изменениях используют линейный график). Гистограмма имеет виды: частотная и плотностная.
    Столбчатая диаграмма похожа на гистограмму, но в этой диаграмме имеются расстояния между столбцами, более того, их можно менять местами без потери смысла. В столбчатой диаграмме каждый столбик отображает отдельную категорию: у столбчатой диаграммы категории представлены атрибутивными данными. Столбчатая диаграмма больше подходит для сравнения категориальных данных, когда показателей больше пяти. Столбчатая диаграмма имеет разновидности: вертикально состыкованная столбчатая диаграмма и горизонтальная состыкованная столбиковая диаграмма.
    Диаграмма областей, или диаграмма с областями, предназначена для отображения данных в графическом виде. По сути, это линейный график с окрашенными областями: область между осью и линией обычно выделяется цветом, текстурой или штриховкой. Обычно сравнивают две или более величины. Диаграмма областей имеет разновидности:
– используются вертикальные и горизонтальные линии для соединения точек данных в серии, образующей ступенчатую последовательность (диаграммы с областями шага),
– точки данных соединены плавными кривыми, а не прямыми линиями (диаграммы сплайн-площадей),
– область смещена вокруг центральной оси (streamgraphs).
    Географическая диаграмма показывает распределение показателя по географическим регионам, каждый из которых имеет свое цветовое обозначение.
    Диаграмма размаха (boxplot  или «ящик с усами») – график, изображающий одномерное распределение вероятностей. Расстояния между различными частями ящика позволяют определить степень разброса (дисперсии) и асимметрии данных и выявить выбросы. В целом диаграмма размаха наглядно показывает медиану (или среднее), нижний и верхний квартили, дисперсию, асимметрию в данных, минимальное и максимальное значение выборки и выбросы. Ее можно располагать как горизонтально, так и вертикально.
    Известны и другие виды диаграмм и подобных возможностей визуализации даных, например, дендрограмма и диаграмма Ганта.
    Японские свечи часто понимается как совмещение интервального и линейного графика в том смысле, что каждый его элемент отображает диапазон изменения параметра в течение определённого времени. Свеча показывает, как менялась цена за период, максимум и минимум цены за соответствующий период, цену открытия и закрытия. Вообще существует множество параметров, которые акцентируются видом свечей, например, движение вверх или вниз, тренд, разворот тренда, соотношение цен. Однако свеча не содержит прямой информации о движении цен внутри соответствующего интервала времени. Нет указаний на то, максимум или минимум был достигнут первым, сколько раз происходили рост или снижение цен. Чтобы это выяснить, надо изучать графики меньшего временного интервала. Японские свечи обычно используются в трейдинге, при техническом анализе рынка, для отображения изменений биржевых котировок акций и т.п.
    И, наконец, упомянем возможность совместного применения указанных и других возможностей визуализации данных; это – аналитическая панель, или дашборд. Дашборд также часто понимают как метод визуализации и анализа информации о тех или иных процессах и об их эффективности. Дашборд использует таблицы, диаграммы, индикаторы и другие средства  и служит отображению изменяемых количественных данных. Дашборд не исключает возможности интерактивного изменения различных параметров. Наглядные изображения называют виджетами.


Г. Обсуждение обычных тем и проблем по теме визуализации данных мы оставим специалистам информационных технологий, а в смысле диалектики и проводимого анализа отметим, что приведенные возможности и способы визуализации данных определяют не только традиционные вопросы и выводы, но и другие. Укажем некоторые из них, нужные для наших последующих исследований (их полный перечень может быть приведен и обсужден отдельно).
    Во-первых, визуализация данных акцентирует ряд характеристик данных, важных при сборе, предобработке и содержательном анализе данных. Однако эти характеристики, хотя порой и указываются в информационных технологиях, не анализируются с позиций сбора и обработки данных, что значительно их обедняет и во многом приводит к указанным выше и другим ошибкам информационных технологий.
    Во-вторых, важен такой аспект: визуализация данных выполняет не только роль отображения данных, – визуализацию данных следует понимать еще и как методологию организации и обработки данных. Этот аспект упущен в науках. Такого рода понимание визуализации данных качественно отличается от обычных ее пониманий и соответственно определяет новое направление в исследованиях информационных технологий (оно не имеет аналогов, но в силу ограничений объемов изложений материалов сайта оно пока излагаться не будет, хотя может быть обсужден в дискуссиях).
    В-третьих, то, что визуализация данных эффективна и необходима, это понятно, но никто не задавался вопросами о том, а каковы лучшие (или почему выбираются конкретные) в каждом конкретном случае ее варианты? Их выбор зависит от способа выражения мыслей специалиста или от возможностей восприятия пользователей? Нет анализа методики (применения) способов визуализации данных в зависимости от выражения и восприятия результатов, а не по функциональности (что и как реализуется). И вопрос тут не только в повышении эффективности презентации, а в провале научной методологии аналитики данных – в ней не учтен целый класс вопросов (их полный перечень может быть приведен и обсужден отдельно), и это связано с рядом проблем, в том числе ментальных, например, с проблемами восприятия, о чем уже говорилось на сайте (В диалектике соответствующие вопросы решаются, исходя из современных диалектических представлений о данных).
    В таком случае речь опять же идет о данных, об их определении, причем очевидно качественное различие в подходах к пониманию данных в науках и в диалектике (полный перечень соответствующих положений может быть приведен и обсужден отдельно), что в диалектическом программировании обусловливает изменение и дополнение способов визуализации данных, а также исследование ряда вопросов, определяющих основы обработки данных, информационных технологий и алгоритмизации познания (их полный перечень также может быть приведен и обсужден отдельно): это вопрос опосредствования данных, в том числе осмысление их а) по отношению к ряду категорий, в первую очередь, к знаниям, определениям, информации и метаданным, и б) в плане их субъективного изменения (изменения в сознании, например, целевые изменения).  
    При этом вопрос опосредствования данных включает в себя практически все вопросы, указанные при анализе предобработки данных. И тут важно то, что они получают еще одно, новое измерение и, кроме того, теперь можно ставить вопрос о выявлении измерений всех групп моментов, выявленных при исследовании предобработки данных. А это – уже качественно новый уровень анализа моментов критики и различия положений информационных технологий и соответственно представлений об информационных технологиях. Такого рода анализ качественно отличается от обычных исследований информационных технологий и составляет отдельный отдел соответствующего раздела («Фундаментальные исследования информационных технологий», он не имеет аналогов, но в силу ограничений объемов изложений материалов сайта на нем пока излагаться не будет, хотя может быть обсужден в дискуссиях).
    В итоге, в-четвертых, можно сделать вывод о том, что визуализация данных может являться средним термином в процессах непрерывной обработки данных и познания.

Указанные и некоторые другие моменты и выводы обозначают ряд базовых положений для определения как параметров продолжения исследований, так и характеристик их опорных положений, которые затем определяются в качестве параметров и моментов качественного развития информационных технологий – новых информационных технологий.

 

См. «Особенность исследований ИТ»

 

 

Дискуссии и конференции. Методы.