Корреляционный анализ

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ, раздел математической статистики, предназначенный для оценки корреляции между случайными величинами и проверки гипотез о значимости связи между ними. Корреляционный анализ статистических данных использует следующие основные практические приёмы: построение корреляционного поля и составление корреляционной таблицы; вычисление выборочных коэффициентов корреляции; проверку статистических гипотез значимости связи. Дальнейшее исследование может заключаться в установлении конкретного вида зависимости между величинами (смотри Регрессионный анализ).

Вспомогательными средствами при анализе выборочных двумерных данных являются корреляционное поле и корреляционная таблица. Корреляционное поле получают, нанося выборочные точки на координатную плоскость. По характеру расположения точек поля можно составить предварительное представление о форме зависимости случайных величин (например, о том, что одна величина в среднем возрастает или убывает при возрастании другой). Для численной обработки результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке этой таблицы приводятся численности nij тех пар (х,у), компоненты которых попадают в соответствующие интервалы группировки по каждой переменной. Обычно длины интервалов группировки (по каждой из переменных) выбирают равными между собой, и центры (соответственно у1) этих интервалов, и числа nij используют в качестве основы для расчётов.

Реклама

Корреляционная таблица позволяет, в частности, вычислить выборочный коэффициент корреляции и выборочное корреляционное отношение. Выборочный коэффициент корреляции определяется по формуле

Корреляционный анализ

где ni = Σjnij,   nj = Σinij и ȳ = Σinjyj/n. При большом числе независимых наблюдений, подчинённых одному и тому же распределению, близкому к нормальному, Корреляционный анализ близок к истинному корреляции коэффициенту ρ. В других случаях в качестве характеристики связи между Х и Y рекомендуется использовать корреляционное отношение Корреляционный анализ интерпретация которого не зависит от вида исследуемой зависимости. Выборочное значение Корреляционный анализ вычисляется по данным корреляционной таблицы:

Корреляционный анализ

где числитель характеризует рассеяние условных средних значений Корреляционный анализ около безусловного среднего ȳ (аналогично определяется выборочное значение Корреляционный анализ

Величина Корреляционный анализиспользуется в качестве индикатора отклонения регрессии от линейной.

Один из методов проверки гипотезы о значимости связи между Х и Y основывается на распределении выборочного коэффициента корреляции. В случае нормального распределения величина выборочного коэффициента корреляции Корреляционный анализсчитается значимо отличной от нуля, если выполняется неравенство

Корреляционный анализ

где tα есть квантиль порядка α Стьюдента распределения с n-2 степенями свободы, соответствующая выбранному значимости уровню α. В случае ρ ≠ 0 часто используют так называемое z-преобразование Фишера, заменяя величину Корреляционный анализ на

Корреляционный анализ 

Уже при сравнительно небольших n распределение величины z хорошо приближается нормальным распределением с математическим ожиданием, равным

Корреляционный анализ

и дисперсией, равной 1/(n - 3). Из этого можно определить интервалы (доверительные границы) для истинного коэффициента корреляции р.

Лит.: Ван дер Варден В. Л. Математическая статистика. М., 1960; Айвазян С. А. Статистическое исследование зависимостей. М., 1968; Кендалл М., Стьюарт А. Статистические выводы и связи. М., 1973; Крамер Г. Математические методы статистики. 3-е изд. М.; Ижевск, 2003.

А. В. Прохоров.