Все о тюнинге авто

Как рассчитать корреляционную связь. Значимость коэффициента корреляции. Предвзятость средств массовой информации

Коэффициент корреляции отражает степень взаимосвязи между двумя показателями. Всегда принимает значение от -1 до 1. Если коэффициент расположился около 0, то говорят об отсутствии связи между переменными.

Если значение близко к единице (от 0,9, например), то между наблюдаемыми объектами существует сильная прямая взаимосвязь. Если коэффициент близок к другой крайней точке диапазона (-1), то между переменными имеется сильная обратная взаимосвязь. Когда значение находится где-то посередине от 0 до 1 или от 0 до -1, то речь идет о слабой связи (прямой или обратной). Такую взаимосвязь обычно не учитывают: считается, что ее нет.

Расчет коэффициента корреляции в Excel

Рассмотрим на примере способы расчета коэффициента корреляции, особенности прямой и обратной взаимосвязи между переменными.

Значения показателей x и y:

Y – независимая переменная, x – зависимая. Необходимо найти силу (сильная / слабая) и направление (прямая / обратная) связи между ними. Формула коэффициента корреляции выглядит так:


Чтобы упростить ее понимание, разобьем на несколько несложных элементов.

Между переменными определяется сильная прямая связь.

Встроенная функция КОРРЕЛ позволяет избежать сложных расчетов. Рассчитаем коэффициент парной корреляции в Excel с ее помощью. Вызываем мастер функций. Находим нужную. Аргументы функции – массив значений y и массив значений х:

Покажем значения переменных на графике:


Видна сильная связь между y и х, т.к. линии идут практически параллельно друг другу. Взаимосвязь прямая: растет y – растет х, уменьшается y – уменьшается х.



Матрица парных коэффициентов корреляции в Excel

Корреляционная матрица представляет собой таблицу, на пересечении строк и столбцов которой находятся коэффициенты корреляции между соответствующими значениями. Имеет смысл ее строить для нескольких переменных.

Матрица коэффициентов корреляции в Excel строится с помощью инструмента «Корреляция» из пакета «Анализ данных».


Между значениями y и х1 обнаружена сильная прямая взаимосвязь. Между х1 и х2 имеется сильная обратная связь. Связь со значениями в столбце х3 практически отсутствует.

В математической статистике корреляцией является статистическая и вероятностная зависимость, которая не обладает строгим функциональным характером. Корреляционная зависимость появляется в том случае, когда один из признаков является зависящим как от данного второго, так и от ряда других случайных факторов. Коэффициент корреляции служит математической мерой зависимости двух случайных величин.

Виды коэффициентов корреляции могут быть отрицательными и положительными. Расчеты, выполняемые с помощью корреляции, не являются очень сложными, но требуют особой внимательности от исполнителя при расчетах. При этих вычислениях вам обязательно понадобится инженерный калькулятор. Прежде чем выяснить, как найти коэффициент корреляции, необходимо уяснить смысл значений коэффициентов:

  • В том случае, когда значение по модулю располагается ближе к 1, то это прямой показатель наличия сильной связи.
  • Если же значение располагается ближе к 0, то это уже означает слабую связь или вообще ее отсутствие.
  • Когда коэффициент корреляции равняется 1, тогда речь идет о функциональной связи, что свидетельствует о возможности описания при помощи математической функции изменения двух величин.

Порядок и метод расчета коэффициента корреляции

Найти выборочный коэффициент корреляции, можно двумя методами:

  • ранговый метод, или метод Спирмена,
  • метод квадратов, или метод Пирсона.

Ранговый метод

Ранговый метод заключается в следующем алгоритме действий:

  1. Требуется составить два ряда, состоящих из парных сопоставляемых признаков. При этом вводим следующие обозначения: первый ряд – х и второй ряд – у. Первый ряд признака необходимо представить в возрастающем или же убывающем порядке. Числовые же значения второго ряда располагаем напротив значений первого ряда.
  2. Затем в каждом из рядов сравнения заменяем порядковым номером (рангом) величину признака. Номерами (рангами) обозначаются места показателей, или значений, первого и второго рядов. А числовым значениям второго признака должны присваиваться ранги абсолютно в таком же порядке, как и при раздаче первого признака их величинам. Необходимо учесть, что если признак в ряду имеет одинаковые величины, то ранги необходимо определять в виде среднего числа из суммы порядковых номеров данных величин.
  3. Далее определяем разность рангов между показателями: (d) = х- у.
  4. После этого возводим в квадрат полученную разность рангов (d 2).
  5. И в заключении получаем сумму квадратов разности, после чего подставляем все полученные значения в следующую формулу: Pxy=1-(6 Ʃd 2)/n(n 2 -1).

Метод квадратов

Метод квадратов включает в себя следующий алгоритм:

  1. Для того чтобы найти коэффициент корреляции вначале необходимо построить для каждого из сопоставляемых признаков вариационные ряды. Обозначаем первый ряд – х и второй ряд – у. Теперь определяем средние значения (М 1 и М 2) для каждого вариационного ряда.
  2. Далее находим отклонения каждого числового значения (d х и d y) от среднего значения ряда.
  3. Перемножаем полученные отклонения и возводим каждое отклонение в квадрат, после чего суммируем по каждому ряду.
  4. Затем необходимо подставить все полученные ранее значения в формулу и таким образом найти коэффициент корреляции: r xy = Ʃ(dx*dy)/(sqrt(Ʃ d2x)* Ʃ d2y).
  5. Если имеется вычислительная техника, то расчет можно произвести по следующей формуле, также эту форму расчета можно использовать в программах, написанных языком Паскаль: r xy =(nƩxy-/Ʃx *Ʃy)/(sqrt(- )).

В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).

Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).

Понятие о корреляционном анализе

Существует множество Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.

Понятие о ложности корреляции

При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.

В этом случае говорят о ложной корреляции.

Задачи корреляционного анализа

Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.

Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:

  • выявление факторов, оказывающих наибольшее влияние на результативный признак;
  • выявление неизученных ранее причин связей;
  • построение корреляционной модели с ее параметрическим анализом;
  • исследование значимости параметров связи и их интервальная оценка.

Связь корреляционного анализа с регрессионным

Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами. Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод

Условия использования метода

Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.

Правила отбора факторов корреляционного анализа

При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.

Отображение результатов

Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.

При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.

Трехмерное представление диаграммы разброса (рассеивания)

Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.

Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.

Оценка тесноты связи

Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.

Пример применения метода корреляционного анализа

В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.

Исходные данные для корреляционного анализа

Профессиональная группа

смертность

Фермеры, лесники и рыбаки

Шахтеры и работники карьеров

Производители газа, кокса и химических веществ

Изготовители стекла и керамики

Работники печей, кузнечных, литейных и прокатных станов

Работники электротехники и электроники

Инженерные и смежные профессии

Деревообрабатывающие производства

Кожевенники

Текстильные рабочие

Изготовители рабочей одежды

Работники пищевой, питьевой и табачной промышленности

Производители бумаги и печати

Производители других продуктов

Строители

Художники и декораторы

Водители стационарных двигателей, кранов и т. д.

Рабочие, не включенные в другие места

Работники транспорта и связи

Складские рабочие, кладовщики, упаковщики и работники разливочных машин

Канцелярские работники

Продавцы

Работники службы спорта и отдыха

Администраторы и менеджеры

Профессионалы, технические работники и художники

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

Использование ПО при проведении корреляционного анализа

Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный предполагает вычисление следующих парамет-ров с использованием функций:

1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ (массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.

Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию с теми же массивами.

Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».

После указания исходных данных получаем график.

2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).

3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.

В заключение

Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.

После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины. Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel. Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.

Коэффициент корреляции (или линейный коэффициент корреляции) обозначается как «r» (в редких случаях как «ρ») и характеризует линейную корреляцию (то есть взаимосвязь, которая задается некоторым значением и направлением) двух или более переменных. Значение коэффициента лежит между -1 и +1, то есть корреляция бывает как положительной, так и отрицательной. Если коэффициент корреляции равен -1, имеет место идеальная отрицательная корреляция; если коэффициент корреляции равен +1, имеет место идеальная положительная корреляция. В остальных случаях между двумя переменными наблюдается положительная корреляция, отрицательная корреляция или отсутствие корреляции. Коэффициент корреляции можно вычислить вручную, с помощью бесплатных онлайн-калькуляторов или с помощью хорошего графического калькулятора.

Шаги

Вычисление коэффициента корреляции вручную

    Соберите данные. Перед тем как приступить к вычислению коэффициента корреляции, изучите данные пары чисел. Лучше записать их в таблицу, которую можно расположить вертикально или горизонтально. Каждую строку или столбец обозначьте как «х» и «у».

    • Например, даны четыре пары значений (чисел) переменных «х» и «у». Можно создать следующую таблицу:
      • x || y
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  1. Вычислите среднее арифметическое «х». Для этого сложите все значения «х», а затем полученный результат разделите на количество значений.

    Найдите среднее арифметическое «у». Для этого выполните аналогичные действия, то есть сложите все значения «у», а затем сумму разделите на количество значений.

    Вычислите стандартное отклонение «х». Вычислив средние значения «х» и «у», найдите стандартные отклонения этих переменных. Стандартное отклонение вычисляется по следующей формуле:

    Вычислите стандартное отклонение «у». Выполните действия, которые описаны в предыдущем шаге. Воспользуйтесь той же формулой, но подставьте в нее значения «у».

    Запишите основную формулу для вычисления коэффициента корреляции. В эту формулу входят средние значения, стандартные отклонения и количество (n) пар чисел обеих переменных. Коэффициент корреляции обозначается как «r» (в редких случаях как «ρ»). В этой статье используется формула для вычисления коэффициента корреляции Пирсона.

    Вы вычислили средние значения и стандартные отклонения обеих переменных, поэтому можно воспользоваться формулой для вычисления коэффициента корреляции. Напомним, что «n» – это количество пар значений обеих переменных. Значение других величин были вычислены ранее.

    • В нашем примере вычисления запишутся так:
    • ρ = (1 n − 1) Σ (x − μ x σ x) ∗ (y − μ y σ y) {\displaystyle \rho =\left({\frac {1}{n-1}}\right)\Sigma \left({\frac {x-\mu _{x}}{\sigma _{x}}}\right)*\left({\frac {y-\mu _{y}}{\sigma _{y}}}\right)}
    • ρ = (1 3) ∗ {\displaystyle \rho =\left({\frac {1}{3}}\right)*} [ (1 − 3 1 , 83) ∗ (1 − 4 2 , 58) + (2 − 3 1 , 83) ∗ (3 − 4 2 , 58) {\displaystyle \left({\frac {1-3}{1,83}}\right)*\left({\frac {1-4}{2,58}}\right)+\left({\frac {2-3}{1,83}}\right)*\left({\frac {3-4}{2,58}}\right)}
      + (4 − 3 1 , 83) ∗ (5 − 4 2 , 58) + (5 − 3 1 , 83) ∗ (7 − 4 2 , 58) {\displaystyle +\left({\frac {4-3}{1,83}}\right)*\left({\frac {5-4}{2,58}}\right)+\left({\frac {5-3}{1,83}}\right)*\left({\frac {7-4}{2,58}}\right)} ]
    • ρ = (1 3) ∗ (6 + 1 + 1 + 6 4 , 721) {\displaystyle \rho =\left({\frac {1}{3}}\right)*\left({\frac {6+1+1+6}{4,721}}\right)}
    • ρ = (1 3) ∗ 2 , 965 {\displaystyle \rho =\left({\frac {1}{3}}\right)*2,965}
    • ρ = (2 , 965 3) {\displaystyle \rho =\left({\frac {2,965}{3}}\right)}
    • ρ = 0 , 988 {\displaystyle \rho =0,988}
  2. Проанализируйте полученный результат. В нашем примере коэффициент корреляции равен 0,988. Это значение некоторым образом характеризует данный набор пар чисел. Обратите внимание на знак и величину значения.

    • Так как значение коэффициента корреляции положительно, между переменными «х» и «у» имеет место положительная корреляция. То есть при увеличении значения «х», значение «у» тоже увеличивается.
    • Так как значение коэффициента корреляции очень близко к +1, значения переменных «х» и «у» сильно взаимосвязаны. Если нанести точки на координатную плоскость, они расположатся близко к некоторой прямой.

    Использование онлайн-калькуляторов для вычисления коэффициента корреляции

    1. В интернете найдите калькулятор для вычисления коэффициента корреляции. Этот коэффициент довольно часто вычисляется в статистике. Если пар чисел много, вычислить коэффициент корреляции вручную практически невозможно. Поэтому существуют онлайн-калькуляторы для вычисления коэффициента корреляции. В поисковике введите «коэффициент корреляции калькулятор» (без кавычек).

      Введите данные. Ознакомьтесь с инструкциями на сайте, чтобы правильно ввести данные (пары чисел). Крайне важно вводить соответствующие пары чисел; в противном случае вы получите неверный результат. Помните, что на разных веб-сайтах различные форматы ввода данных.

      • Например, на сайте http://ncalculators.com/statistics/correlation-coefficient-calculator.htm значения переменных «х» и «у» вводятся в двух горизонтальных строках. Значения разделяются запятыми. То есть в нашем примере значения «х» вводятся так: 1,2,4,5, а значения «у» так: 1,3,5,7.
      • На другом сайте, http://www.alcula.com/calculators/statistics/correlation-coefficient/ , данные вводятся по вертикали; в этом случае не перепутайте соответствующие пары чисел.
    2. Вычислите коэффициент корреляции. Введя данные, просто нажмите на кнопку «Calculate», «Вычислить» или аналогичную, чтобы получить результат.

    Использование графического калькулятора

    1. Введите данные. Возьмите графический калькулятор, перейдите в режим статистических вычислений и выберите команду «Edit» (Редактировать).

      • На разных калькуляторах нужно нажимать различные клавиши. В этой статье рассматривается калькулятор Texas Instruments TI-86.
      • Чтобы перейти в режим статистических вычислений, нажмите – Stat (над клавишей «+»). Затем нажмите F2 – Edit (Редактировать).
    2. Удалите предыдущие сохраненные данные. В большинстве калькуляторов введенные статистические данные хранятся до тех пор, пока вы не сотрете их. Чтобы не спутать старые данные с новыми, сначала удалите любую сохраненную информацию.

      • С помощью клавиш со стрелками переместите курсор и выделите заголовок «xStat». Затем нажмите Clear (Очистить) и Enter (Ввести), чтобы удалить все значения, введенные в столбец xStat.
      • С помощью клавиш со стрелками выделите заголовок «yStat». Затем нажмите Clear (Очистить) и Enter (Ввести), чтобы удалить все значения, введенные в столбец уStat.
    3. Введите исходные данные. С помощью клавиш со стрелками переместите курсор в первую ячейку под заголовком «xStat». Введите первое значение и нажмите Enter. В нижней части экрана отобразится «xStat (1) = __», где вместо пробела будет стоять введенное значение. После того как вы нажмете Enter, введенное значение появится в таблице, а курсор переместится на следующую строку; при этом в нижней части экрана отобразится «xStat (2) = __».

      • Введите все значения переменной «х».
      • Введя все значения переменной «х», с помощью клавиш со стрелками перейдите в столбец yStat и введите значения переменной «у».
      • После ввода всех пар чисел нажмите Exit (Выйти), чтобы очистить экран и выйти из режима статистических вычислений.
    4. Вычислите коэффициент корреляции. Он характеризует, насколько близко данные расположены к некоторой прямой. Графический калькулятор может быстро определить подходящую прямую и вычислить коэффициент корреляции.

      • Нажмите Stat (Статистика) – Calc (Вычисления). На TI-86 нужно нажать – – .
      • Выберите функцию «Linear Regression» (Линейная регрессия). На TI-86 нажмите , которая обозначена как «LinR». На экране отобразится строка «LinR _» с мигающим курсором.
      • Теперь введите имена двух переменных: xStat и yStat.
        • На TI-86 откройте список имен; для этого нажмите – – .
        • В нижней строке экрана отобразятся доступные переменные. Выберите (для этого, скорее всего, нужно нажать F1 или F2), введите запятую, а затем выберите .
        • Нажмите Enter, чтобы обработать введенные данные.

Этап 3. Нахождение взаимосвязи между данными

Линейная корреляция

Последний этап задачи изучения связей между явлениями – оценка тесноты связи по показателям корреляционной связи. Этот этап очень важен для выявления зависимостей между факторными и результативными признаками, а следовательно, для возможности осуществления диагноза и прогноза изучаемого явления.

Диагноз (от греч. diagnosis распознавание) – определение существа и особенностей состояния какого-либо объекта или явления на основе его всестороннего исследования.

Прогноз (от греч. prognosis предвидение, предсказание) – всякое конкретное предсказание, суждение о состоянии какого-либо явления в будущем (прогноз погоды, исхода выборов и т.п.). Прогноз – это научно обоснованная гипотеза о вероятном будущем состоянии изучаемой системы, объекта или явления и характеризующие это состояние показатели. Прогнозирование – разработка прогноза, специальные научные исследования конкретных перспектив развития какого-либо явления.

Вспомним определение корреляции:

Корреляция – зависимость между случайными величинами, выражающаяся в том, что распределение одной величины зависит от значения другой величины.

Корреляционная связь наблюдается не только между количественными, но и качественными признаками. Существуют различные способы и показатели оценки тесноты связей. Мы остановимся лишь на линейном коэффициенте парной корреляции , который используется при наличии линейной связи между случайными величинами. На практике часто возникает необходимость определить уровень связи между случайными величинами неодинаковой размерности, поэтому желательно располагать какой-то безразмерной характеристикой этой связи. Такой характеристикой (мерой связи) является коэффициент линейной корреляции r xy , который определяется по формуле

где , .

Обозначив и , можно получить следующее выражение для расчета коэффициента корреляции

.

Если ввести понятие нормированного отклонения , которое выражает отклонение коррелируемых значений от среднего в долях среднего квадратического отклонения:



то выражение для коэффициента корреляции примет вид

.

Если производить расчет коэффициента корреляции по итоговым значениям исходных случайных величин из расчетной таблицы, то коэффициент корреляции можно вычислить по формуле

.

Свойства коэффициента линейной корреляции:

1). Коэффициент корреляции – безразмерная величина.

2). |r | £ 1 или .

3). , a,b = const, – величина коэффициента корреляции не изменится, если все значения случайных величин X и Y умножить (или разделить) на константу.

4). , a,b = const, – величина коэффициента корреляции не изменится, если все значения случайных величин X и Y увеличить (или уменьшить) на константу.

5). Между коэффициентом корреляции и коэффициентом регрессии существует связь:

Интерпретировать значения коэффициентов корреляции можно следующим образом:

Количественные критерии оценки тесноты связи:

В прогностических целях обычно используют величины с |r| > 0.7.

Коэффициент корреляции позволяет сделать вывод о существовании линейной зависимости между двумя случайными величинами, но не указывает, какая из величин обуславливает изменение другой. В действительности связь между двумя случайными величинами может существовать и без причинно-следственной связи между самими величинами, т.к. изменение обеих случайных величин может быть вызвано изменением (влиянием) третьей.

Коэффициент корреляции r xy является симметричным по отношению к рассматриваемым случайным величинам X и Y . Это означает, что для определения коэффициента корреляции совершенно безразлично, какая из величин является независимой, а какая – зависимой.

Значимость коэффициента корреляции

Даже для независимых величин коэффициент корреляции может оказаться отличным от нуля вследствие случайного рассеяния результатов измерений или вследствие небольшой выборки случайных величин. Поэтому следует проверять значимость коэффициента корреляции.

Значимость линейного коэффициента корреляции проверяется на основе t-критерия Стьюдента :

.

Если t > t кр (P, n -2), то линейный коэффициент корреляции значим, а следовательно, значима и статистическая связь X и Y .

.

Для удобства вычислений созданы таблицы значений доверительных границ коэффициентов корреляции для различного числа степеней свободы f = n –2 (двусторонний критерий) и различных уровней значимости a = 0,1; 0,05; 0,01 и 0,001. Считается, что корреляция значима, если рассчитанный коэффициент корреляции превосходит значение доверительной границы коэффициента корреляции для заданных f и a .

Для больших n и a = 0,01 значение доверительной границы коэффициента корреляции можно вычислить по приближенной формуле

.