Технические детали
Метрика расстояния выбирается в зависимости от типа данных. Для числовых признаков подойдет евклидово расстояние, манхэттенское или расстояние Чебышева. Для категориальных (т.е. те, что не измерить числами, например пол: мужской, женский) используется расстояние Хэмминга, Джакарта или мера Сёренсена.
Методы объединения зависят от распределения данных. Метод Варда, ближайшего соседа, метод невзвешенного попарного среднего, взвешенный центроидный метод… Можно использовать сразу все, а потом выбрать тот, который даст лучшее разбиение (с наименьшей межгрупповой дисперсией).
Перед использованием иерархических методов необходимо исключить
выбросы и пронормировать исходные данные, т.е. привести их к единой шкале измерений.