Методы кластеризации в науках.
- 26.11.23 г.
- 9772225665000     23030


Для сравнения методологического обеспечения кластеризации в диалектике и в науках кратко рассмотрим его содержательность в последних.


А. Известно, что в науках общепринятой единой классификации методов кластеризации не существует, то есть такой классификации нет, и поэтому обычно предлагается рассматривать несколько подходов: некоторые методы можно отнести сразу к нескольким группам и поэтому можно принять приводимую ниже классификацию за некоторое приближение к реальной классификации методов кластеризации (имеющейся только в современной диалектике).

Несмотря на значительные различия между методами кластеризации в науках все они опираются на «гипотезу компактности»: в пространстве объектов, данных, все близкие однотипные объекты должны относиться к одному кластеру, а все различные объекты должны находиться в различных кластерах.

По способу разбиения на кластеры методы разделяются, в основном, на иерархические (агломеративные) и неиерархические (дивизивные).
    Иногда методы классифицируют по количеству признаков.

Иерархические методы применяются для группирования объектов только с категориальными атрибутами. При этом происходит
– последовательное объединение исходных объектов,
– уменьшение числа кластеров,
– создание деревьев вложенных кластеров.
    Иерархические методы обеспечивают сравнительно высокое качество кластеризации и не требуют предварительного задания количества кластеров.
    Однако их процедуры теоретически не обоснованы и для работы с достаточно большим количеством данных иерархические методы кластерного анализа не пригодны.

Наиболее распространены неиерархические методы, которые базируются на разделении и представляют собой итеративные методы деления исходной совокупности.
    Неиерархическая кластеризация заключается в разделении набора данных на определенное количество отдельных кластеров. Неиерархические алгоритмы основаны на оптимизации выбранной целевой функции, определяющей разбиение на кластеры по ряду критериев. Существуют два подхода. Первый заключается в определении кластеров как зон наибольшей концентрации объектов. Второй подход заключается в минимизации меры различия объектов. В процессе деления новые кластеры формируются до тех пор, пока не будет достигнут критерий остановки.
    Неиерархические алгоритмы в определенной мере обоснованы.
    При применении неиерархической кластеризации наиболее часто используются алгоритмы семейства k-средних, которые в качестве целевой функции используют сумму квадратов взвешенных отклонений координат объектов от центров искомых кластеров, а также алгоритмы метода c-means и метода Густафсон-Кесселя.

В связи с отсутствием в науках четкого определения кластеризации к неиерархической кластеризации часто относят
– методы, которые основаны на возможности соединения объектов,
– грид-методы, осуществляющие распределение объектов в грид-структуры,
– модельные методы, использующие модели для нахождения кластеров, наиболее соответствующих данным.

Отдельным образом выделяют следующие подходы к осуществлению кластеризации:
– вероятностный подход (к которому часто относят алгоритмы, принадлежащие другим группам: например, K-средних!!!),
– графовый подход,
– подходы на основе искусственного интеллекта, к которому относят большинство из неклассифицируемых иным образов методов: например, метод нечеткой кластеризации C-средних, нейронная сеть Кохонена, генетический алгоритм и др.


Б. Наиболее предпочтительными для программирования являются иерархические агломеративные методы кластеризации данных, благодаря которым осуществляется разбиение объектов на кластеры на основе ранее рассмотренных мер сходства и расстояния.
    Преимущество иерархических процедур состоит в том, что они позволяют проанализировать структуру множества объектов и наглядно представить результаты кластеризации.
    Результатом такой кластеризации является дендрограмма.

Суть пять методов объединения, которые чаще всего используются в иерархических агломеративных методах кластеризации данных:
 а) межгрупповое связывание, или связывание средних внутри групп: вычисляется наименьшее среднее значение расстояния между всеми парами групп, и на каждом шаге выявляются кластеры (или объекты), расстояние между которыми минимально;
 б) одиночное связывание, или «метод ближайшего соседа», при котором за расстояние между кластерами принимают расстояние между их ближайшими объектами: сначала объединяются два самых близких наблюдения, имеющих минимальное расстояние, после чего матрица расстояний пересчитывается заново, и т.д., а на последнем шаге все наблюдения будут объединяются в один кластер;
 в) полное связывание, или «метод дальнего соседа», в котором за расстояние между кластерами принимают расстояние между наиболее удаленными друг от друга объектами;
 г) центроидная кластеризация, при реализации которой расстояние между кластерами находится как расстояние между их центрами тяжести;
 д) метод Варда, при реализации которого используется метод дисперсионного анализа, а характеристикой качества кластеризации данных является достижение минимального значения внутриклассовой дисперсии.


В. В диалектике математические и сравнительные процедуры, в отличие от методов кластеризации в науках, практически не используются, так как не дают качество данных, а получаемые количественные характеристики всегда относительны (поэтому в науках общепринятой единой классификации методов кластеризации не существует). В диалектике, как было показано в предыдущих статьях, раскрывается определенность понятия кластеризации или реализуются присущие ей принципы, – иными словами, понимание кластеризации в диалектике и науках принципиально различны, поэтому различны и применения, в диалектике позволяющие достичь существенных результатов (см. «Т: отдельные задачи»)...

 

Дискуссии и конференции. Методы