Главные компоненты в статистике

ГЛАВНЫЕ КОМПОНЕНТЫ в статистике, обобщённые показатели, построенные на основе исходных признаков. Обычно исходные признаки весьма существенно коррелируют между собой (смотри Koppeлированные величины). Это затрудняет проведение исследований, так как большинство многомерных статистических методов предполагает (по крайней мере, неявно) некоррелированность признаков. Поэтому надо разрабатывать методы, учитывающие коррелированность признаков, или преобразовать исходное косоугольное пространство в ортогональное. Метод главных компонентов реализует вторую идею.

Сначала на основе матрицы исходных признаков Х строят соответствующую матрицу стандартизованных признаков Z. Затем по Z строят корреляционную матрицу: R = (Z’·Ζ)/n, которая и служит основой метода главных компонент. Для однозначности полученного решения налагается дополнительное условие: упорядочение по убыванию дисперсий главных компонент.

Метод множителей Лагранжа преобразует задачу поиска условного экстремума в задачу поиска безусловного экстремума. А она, в свою очередь, сводится к задаче ортогонализации пространства переходом к системе собственных векторов матрицы R.

Реклама

В результате решения проблемы собственных чисел и собственных векторов строятся две матрицы: диагональная матрица собственных чисел (А) и ортогональная матрица собственных векторов (U).

Далее определяется матрица нагрузок: А = U?Λ1/2, элементы которой [A = {ajv}; j, ν= 1, ..., k] являются коэффициентами парной корреляции между исходными признаками (расположенными по строкам) и построенными главными компонентами (расположенными по столбцам) ajv = rXj , Fv. Это позволяет содержательно интерпретировать первые наиболее весомые главные компоненты. Кроме того, можно объяснить связь между исходными признаками как следствие их связи с главными компонентами.

Далее строится матрица индивидуальных значений главных компонентов на объектах: F = Z?U. Обобщённые показатели (главные компоненты) располагаются по столбцам этой матрицы. Они являются ортогональными (некоррелированными) центрированными величинами с дисперсиями, равными соответствующим собственным числам. Это позволяет успешно использовать главные компоненты при классификации объектов или при построении уравнения регрессии (с дальнейшим пересчётом в исходные признаки). На практике используются несколько первых наиболее весомых главных компонент.

Большинство современных реальных статистических исследований матрицы данных - «объект-признак» - выполняется с использованием метода главных компонент, чему способствует наличие программ во всех статистических пакетах прикладных программ (ППП). Надо учитывать, что при составлении программ разработчики могли внести модификации; например, опираться не на корреляционную, а на ковариационную матрицу или включить атрибут факторный анализ: возможность вращения матрицы нагрузок для улучшения интерпретации или при построении матрицы F использовать формулу F = Z?A вместо указанной и т. д.

Лит.: Прикладная статистика. Классификация и снижение размерностей / Под редакцией С. А. Айвазяна. М., 1989, с. 334.

И. А. Корнилов.