Методы факторного анализа, как было показано, ориентированы на изучение структуры множества признаков и выявление обобщенных факторов; анализ структуры множества объектов по матрице данных (см. таблицу 1) проводят с помощью методов многомерной классификации.

Современный уровень развития методов многомерного статистического анализа и наличие ЭВМ позволяют осуществлять классификацию объектов на широкой и объективной основе, с учетом всех существенных структурно-типологических признаков и характера распределения объектов в заданной системе признаков.

В настоящее время существует много методов построения классификации многомерных объектов с помощью ЭВМ. При этом традиционно выделяют две группы методов. Методы первой группы связаны с задачей “узнавания'', идентификации ”объектов” они получили название методов распознавания образов. Смысл распознавания заключается в том, чтобы любой предъявляемый машине объект с наименьшей вероятностью ошибки был отнесен к одному из заранее сформированных классов. Здесь машине сначала предъявляют “обучающую последовательность” Объектов (о каждом из которых известно, к какому классу или “образу”' он принадлежит), а затем, “обучившись”, машина должна распознать, к каким классам относятся новые объекты из изучаемой совокупности.

Более общий подход к классификации включает не только отнесение объектов к одному из классов, но и одновременное формирование самих “образов”, число которых может быть заранее неизвестно. При отсутствии обучающей последовательности такая классификация производится на основе стремления собрать в одну группу в некотором смысле схожие объекты, да еще так, чтобы объекты из разных групп (классов) были по возможности несхожими. Именно такие методы получили название методов автоматической классификации (кластерного анализа, таксономии, распознавания образов без учителя”).

В настоящее время разработаны десятки и сотни различных алгоритмов, реализующих многомерную классификацию автоматически. Они основаны на различных гипотезах о характере распределения объектов в многомерном пространстве признаков, на различных математических процедурах. Обзоры этих методов широко представлены в литературе.

Отсутствие априорной информации о характере распределения объектов внутри каждой группы предполагает построение многомерной классификации на основе методов кластерного анализа (cluster (англ.) - скопление, “гроздь”, группа объектов, характеризующихся общими свойствами). На примере кластерного анализа рассмотрим основные этапы построения многомерной классификации.

Кластер-анализ: Будем считать, что все m признаков измерены в количественной шкале. Тогда каждый из n объектов может быть представлен точкой в m-мерном пространстве признаков. Характер распределения этих точек в рассматриваемом пространстве определяет структуру сходства и различия объектов в заданной системе показателей.

О сходстве объектов можно судить по расстоянию между соответствующими точками. Содержательный смысл такого понимания сходства означает, что объекты тем более близки, похожи в рассматриваемом аспекте, чем меньше различий между значениями одноименных показателей.

Для определения близости пары точек в многомерном пространстве обычно используют евклидово расстояние, равное корню квадратному из суммы квадратов разностей значений одноименных показателей, взятых для данной пары объектов:

19, i, j=1,…,n.(6)

где dij - евклидово расстояние между i-м и j-м объектами; xit, - значение l-то показателя для i-го объекта.

Вычислив расстояние между каждой парой объектов, получим квадратную матрицу D, имеющую размеры nxn(по числу объектов); эта матрица, очевидно, симметрична, т.е. dij = dij (i,j=1,…,n)

Матрица расстояний D служит основой при реализации методов кластерного анализа, в том числе и агломеративно-иерархического метода, который часто используется для многомерной классификации объектов в социально-экономических исследованиях. Основная идея этого метода заключается в последовательном объединении группируемых объектов - сначала самых близких, затем более удаленных друг от друга. Процедура построения классификации состоит из последовательности шагов, на каждом из которых производится объединение двух ближайших групп объектов (кластеров).

Существуют различные способы определения расстояния между группами объектов (различающие методы кластерного анализа). Обычно близость двух кластеров определяется как средний квадрат расстояния между всеми такими парами объектов, где один объект пары принадлежит к одному кластеру, а другой - к другому:

(7)

где Dpq - мера близости между р - м и q -м кластерами; Rp - р-й кластер; Rq - q -й кластер; nq- число объектов в p-м кластере; nq- число объектов в q -м кластере.

На первом шаге процедуры агломеративно-иерархического метода кластерного анализа рассматривается начальная матрица расстояний между объектами и по ней определяется минимальное число di1j1; далее, наиболее близкие объекты с номерами i1 и j1 объединяются в один кластер, в матрице вычеркиваются строки и столбец с номером j1 , а расстояния от нового кластера (он получает номер i1 ) до всех остальных кластеров (на первом шаге - объектов) вычисляются по формуле (7); в данном случае квадраты таких расстояний равны полусуммам квадратов расстояний от i1-го и j1-го объектов до каждого из остальных. Эти вновь вычисленные значения расстояний заносятся в i1-ю строку и i1-й столбец матрицы D.

На втором шаге процедуры по матрице D, содержащей уже n-1 строк и столбцов, определяют минимальное число di2j2 и формируют новый кластер с номером i2. Этот кластер может быть построен в результате объединения либо двух объектов, либо одного объекта с i1 -м кластером, построенным на первом шаге. Далее, в матрице D вычеркиваются строка столбец с номером j2, а строка и столбец с номером i2 перечитываются, и т.д.

Таким образом, метод кластерного анализа включает п-1 аналогичных шагов. При этом после выполнения k-го шага (k n-1) число кластеров равно n-k (некоторые из них могут быть отдельными объектами), а матрица D имеет размеры (n-k)x (n-k).В конце этой процедуры, на (n-1)-м шагe, получится кластер, объединяющий все n объектов.

Результаты классификации, построенной изложенным методом, можно изобразить в виде дерева иерархической структуры (дендрограммы), содержащего n уровней, каждый из которых соответствует одному из шагов описанного процесса последовательного укрупнения кластеров.

В кластерном анализе существенным является выбор необходимого числа кластеров. В некоторых случаях число кластеров может быть выбрано из априорных соображений, однако чаще это число определяется в процессе формирования кластеров на основе значений некоторых показателей их однородности и степени удаленности друг от друга (например, показателей внутригрупповой дисперсии или вариации).

Результаты классификации зависят от масштабов используемых значений показателей. Из формулы (7) следует, что вменение масштаба значений показателей приводит к изменение расстояний между объектами. Так, например, если некоторый показатель, выраженный в рублях, переведен в копейки, то относительный вклад этого показателя при вычислении меры близости Dpq увеличивается в 100 раз. Для устранения такой неоднородности исходных данных показатели стандартизируют путем вычитания среднего значения и деления на среднее квадратическое отклонение, так что дисперсия каждого показателя оказывается равной 1, а среднее - О (см. формулу 2 ). С помощью стандартизации все показатели оказываются равноценными по отношению к сходству рассматриваемых объектов.

Минимизация среднего расстояния между кластерами, которая производится на каждом шаге, эквивалентна минимизации некоторого критерия качества классификации, оценивающего степень однородности формируемых кластеров.

Меры близости объектов. Отметим, что степень сходства многомерных объектов может быть охарактеризована не только с помощью евклидова расстояния (6), но и с помощью других мер, выбор которых определяется структурой пространства признаков и цепью классификаций. Например, если признаки имеют качественную природу (пусть для определенности все m признаков - альтернативные, т.е. принимают значения 0 или 1),

то степень сходства пары объектов (i, j) может быть выражена различными коэффициентами, из которых приведем здесь

а - расстояние, по Хеммингу,

(8)

б - коэффициент композиционного сходства

(9)

где Pij и qij- - числа признаков, имеющих соответственно одинаковые и различающиеся значения для i-го и j-го объектов; m - число признаков.

Как следует из формулы (8), расстояние dij по Хеммингу, равно числу признаков, значения которых для обоих объектов не совпадают. Значения dij - изменяются от 0 до m ; они тем меньше, чем ближе эти объекты в заданной системе признаков.

Что касается коэффициента композиционного сходства Sij то его значение тем больше, чем ближе данные два объекта; Sij изменяется в пределах от 0 до 1. Как следует из формулы (9), Sij =О, если значения всех одноименных признаков для обоих объектов различаются, и Sij=1, если значения всех признаков для них совпадают.

Подсчитав значения коэффициентов dij или Sij для всех пар объектов, получим квадратную матрицу размером nxn аналогичную матрице расстояний D (и также симметричную), которую далее можно анализировать с помощью какого-либо метода автоматической классификации.

Построенную с помощью этих методов многомерную группировку объектов можно рассматривать в типологическом аспекте, если содержательный анализ полученных результатов позволяет указать качественные и количественные особенности выделенных групп - кластеров.

Характеризуя методы автоматической классификации с точки зрения возможности распространения выборочных результатов на генеральную совокупность, отметим, что статистические критерии значимости для проверки гипотезы о принадлежности объектов к тем или иным группам разработаны слабо. Полученная многомерная классификация рассматривается как характерная именно для изучаемой совокупности (как это и принято в анализе данных).

Рассматривая многомерные задачи типологии, следует подчеркнуть плодотворность совместного использования методов автоматической классификации и факторного анализа. Существует несколько подходов к последовательному использованию этих методов для обработки одних и тех же данных. Наиболее органично методы автоматической классификации и факторного анализа сочетаются в новом синтетическом подходе, имеющем название лингвистического подхода к обработке данных.

Вернемся теперь к задаче распознавания образов в многомерном пространстве признаков. Различные варианты этой задачи осмотрены в литературе (метод потенциальных функций, метод минимизации эмпирического риска и др.). Наиболее доступный из них, пожалуй, дискриминантный анализ. Как и в других методах распознавания, здесь имеется обучающая высока об объектах которой известно заранее, к какому из двух классов (образов) принадлежит каждый из них. Проанализировав объекты обучающей выборки, необходимо выработать правило, согласно которому каждый новый объект будет отнесен к одному из двух классов. В рамках линейного дискриминантного анализа это правило можно построить так. Пусть

(10)

-. линейная функция от т исходных признаков, для которой F(X ....,Хт ) >O, еслиoбъeкт относится к первому классу, и F(X ....,Хт )<O - в противном случае. Задача дискриминантного анализа сводится к поиску такой разделяющей (или дискриминантной) функции, которая наилучшим образом осуществляет разделение объектов обучающей выборки. Формально решается задача вычисления оптимальных коэффициентов , определяющих классификационную ценность признаков.

Геометрически задача сводится к определению положения новой оси в многомерном пространстве признаков, такой, чтобы проекции объектов обоих классов на эту ось оказались, возможно, более разделенными.

Тогда правило распознавания состоит в следующем: произвольный объект, заданный в рассматриваемом т - мерном пространстве признаков, относится к первому классу, если для него функция (10) принимает положительное значение, и ко второму клaccy - если F(X ,...,Х )<O. Для распознавания очередного объекта требуется, таким образом, только подставить значения его признаков X1,…Xm в формулу (10) и получить знак дискриминантной функции. Число групп может быть более двух (2 группы мы рассматривали для простоты изложения). Известные проблемы нормальности распределения признаков в дискриминантом анализе, статистических оценок параметров разделяющей функции мы здесь не рассматриваем.