Задача №54. Расчёт коэффициента корреляции

Содержание
  1. Решения задач: линейная регрессия и коэффициент корреляции
  2. Корреляционная таблица
  3. Коэффициент корреляции
  4. Полезные ссылки
  5. Тема: КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
  6. Информационный блок
  7. Метод определения коэффициента ранговой корреляции или метод рангов, или метод Спирмена (по автору):
  8. Метод квадратов (Пирсона) вычисления коэффициента корреляции.
  9. Эталон решения
  10. пример. влияние введения раннего прикорма
  11. контрольные вопросы:
  12. Задачи для самостоятельного решения
  13. ВОПРОСЫ ДЛЯ ТЕСТОВОГО КОНТРОЛЯ
  14. Критические значения коэффициента корреляции rxy
  15. Критические значения Х2
  16. Корреляционный анализ
  17. Функциональная зависимость и корреляция
  18. Условия, при которых возможен расчет коэффициента корреляции Пирсона:
  19. Коэффициент корреляции Спирмена (rS)
  20. Свойства оценок коэффициентов корреляции
  21. Геометрическая интерпретация коэффициента корреляции
  22. Значимость коэффициента корреляции
  23. Литература
  24. Простыми словами: коэффициент корреляции в Excel + формула
  25. Ложные корреляции
  26. Корреляция и диверсификация
  27. Коэффициент корреляции и ПАММ-счета
  28. Коэффициент корреляции в Excel и формула расчёта

Решения задач: линейная регрессия и коэффициент корреляции

Задача №54. Расчёт коэффициента корреляции

Парная линейная регрессия – это зависимость между одной переменной и средним значением другой переменной. Чаще всего модель записывается как $y=ax+b+e$, где $x$ – факторная переменная, $y$ – результативная (зависимая), $e$ – случайная компонента (остаток, отклонение).

В учебных задачах по математической статистике обычно используется следующий алгоритм для нахождения уравнения регрессии.

  1. Выбор модели (уравнения). Часто модель задана заранее (найти линейную регрессию) или для подбора используют графический метод: строят диаграмму рассеяния и анализируют ее форму.
  2. Вычисление коэффициентов (параметров) уравнения регрессии.

    Часто для этого используют метод наименьших квадратов.

  3. Проверка значимости коэффициента корреляции и параметров модели (также для них можно построить доверительные интервалы), оценка качества модели по критерию Фишера.

  4. Анализ остатков, вычисление стандартной ошибки регрессии, прогноз по модели (опционально).

Ниже вы найдете решения для парной регрессии (по рядам данных или корреляционной таблице, с разными дополнительными заданиями) и пару задач на определение и исследование коэффициента корреляции.

Добавьте в закладки

Пример 1. Имеются данные средней выработки на одного рабочего Y (тыс. руб.) и товарооборота X (тыс. руб.) в 20 магазинах за квартал. На основе указанных данных требуется: 1) определить зависимость (коэффициент корреляции) средней выработки на одного рабочего от товарооборота,

2) составить уравнение прямой регрессии этой зависимости.

Решение на построение прямой регрессии

Пример 2. С целью анализа взаимного влияния зарплаты и текучести рабочей силы на пяти однотипных фирмах с одинаковым числом работников проведены измерения уровня месячной зарплаты Х и числа уволившихся за год рабочих Y: X 100 150 200 250 300 Y 60 35 20 20 15

Найти линейную регрессию Y на X, выборочный коэффициент корреляции.

Решение задачи на нахождение коэффициента корреляции и линейной регрессии

Пример 3. Найти выборочные числовые характеристики и выборочное уравнение линейной регрессии $y_x=ax+b$. Построить прямую регрессии и изобразить на плоскости точки $(x,y)$ из таблицы. Вычислить остаточную дисперсию. Проверить адекватность линейной регрессионной модели по коэффициенту детерминации.

Прямая регресси, адекватность модели

Пример 4. Вычислить коэффициенты уравнения регрессии. Определить выборочный коэффициент корреляции между плотностью древесины маньчжурского ясеня и его прочностью.

Решая задачу необходимо построить поле корреляции, по виду поля определить вид зависимости, написать общий вид уравнения регрессии Y на Х, определить коэффициенты уравнения регрессии и вычислить коэффициенты корреляции между двумя заданными величинами.

Пример 5. Компанию по прокату автомобилей интересует зависимость между пробегом автомобилей X и стоимостью ежемесячного технического обслуживания Y. Для выяснения характера этой связи было отобрано 15 автомобилей.

Постройте график исходных данных и определите по нему характер зависимости. Рассчитайте выборочный коэффициент линейной корреляции Пирсона, проверьте его значимость при 0,05.

Постройте уравнение регрессии и дайте интерпретацию полученных результатов.

Определение характера зависимости и значимость коэффициента корреляции

Корреляционная таблица

Пример 6. Найти выборочное уравнение прямой регрессии Y на X по заданной корреляционной таблице

Решение задач построения выборочного уравнения регрессии по таблице

Пример 7. В таблице 2 приведены данные зависимости потребления Y (усл. ед.) от дохода X (усл. ед.) для некоторых домашних хозяйств. 1. В предположении, что между X и Y существует линейная зависимость, найдите точечные оценки коэффициентов линейной регрессии. 2. Найдите стандартное отклонение $s$ и коэффициент детерминации $R2$. 3.

В предположении нормальности случайной составляющей регрессионной модели проверьте гипотезу об отсутствии линейной зависимости между Y и X. 4. Каково ожидаемое потребление домашнего хозяйства с доходом $x_n=7$ усл. ед.? Найдите доверительный интервал для прогноза.

Дайте интерпретацию полученных результатов.

Уровень значимости во всех случаях считать равным 0,05.

Решение об исследовании зависимости (4 страницы)

Пример 8. Распределение 100 новых видов тарифов на сотовую связь всех известных мобильных систем X (ден. ед.) и выручка от них Y (ден.ед.

) приводится в таблице: Необходимо: 1) Вычислить групповые средние и построить эмпирические линии регрессии; 2) Предполагая, что между переменными X и Y существует линейная корреляционная зависимость: А) найти уравнения прямых регрессии, построить их графики на одном чертеже с эмпирическими линиями регрессии и дать экономическую интерпретацию полученных уравнений; Б) вычислить коэффициент корреляции, на уровне значимости 0,05 оценить его значимость и сделать вывод о тесноте и направлении связи между переменными X и Y;

В) используя соответствующее уравнение регрессии, оценить среднюю выручку от мобильных систем с 20 новыми видами тарифов.

Исследование корреляционной зависимости

Коэффициент корреляции

Пример 9. На основании 18 наблюдений установлено, что на 64% вес X кондитерских изделий зависит от их объема Y. Можно ли на уровне значимости 0,05 утверждать, что между X и Y существует зависимость?

Проверка значимости коэффициента корреляции

Пример 10. Исследование 27 семей по среднедушевому доходу (Х) и сбережениям (Y) дало результаты: $\overline{X}=82$ у.е., $S_x=31$ у.е., $\overline{Y}=39$ у.е., $S_y=29$ у.е., $\overline{XY} =3709$ (у.е.)2. При $\alpha=0,05$ проверить наличие линейной связи между Х и Y. Определить размер сбережений семей, имеющих среднедушевой доход $Х=130$ у.е.

Полезные ссылки

Математическая статистика, бесплатные примеры задач

Источник: https://www.MatBuro.ru/ex_ms.php?p1=mslr

Тема: КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Задача №54. Расчёт коэффициента корреляции

Врачу любой специальности в практической деятельности приходится наблюдать изменения в состоянии здоровья человека и отдельных групп населения, происходящие в результате воздействия определенных факторов, как в позитивном, так и в негативном направлении. Для того, чтобы уметь отличить случайное от объективного надо знать и уметь это делать. Этому служит данная тема.

Информационный блок

Все явления в природе и обществе находятся во взаимной связи. Различают две формы связи: функциональную и корреляционную.

Функциональная связь означает строгую зависимость явлений. При функциональной связи изменение какого либо одного явления вызывает обязательно строго определенные по величине изменения другого явления. Такого рода связь чаще наблюдается в физико-химических явлениях.

В области биологических и общественных явлений чаще встречаются взаимосвязи иного характера. Такого рода связи называют статистическими, или корреляционными.

Корреляция – латинское слово – означает соотношение, взаимосвязь между признаками.

При корреляционной связи значению каждой средней величины одного признака соответствует несколько значений другого взаимосвязанного с ним признака.

Связь между явлениями и признаками

Всем известно, что уровень антитоксина в крови и заболеваемость дифтерией взаимосвязаны между собой. При одинаковом уровне антитоксина в разных группах детей встречается разное количество заболевших.

В качестве примеров корреляционной связи можно указать на связь между количеством проведенных профилактических прививок и размерами заболеваемости, между размерами заболеваемости и смертности, между сроками изоляции инфекционных больных и частотой вторичных заболеваний в очаге, между качеством питьевой воды и заболеваемостью острыми кишечными инфекциями и т.д.

Вычисление рангового коэффициента корреляции

Параллельное изменение признаков двух явлений само по себе еще не говорит (хотя и наводит на мысль) о наличии связи между ними, так как может быть обусловлено случайным совпадением многих обстоятельств, не связанных друг с другом.

Измерение связи методами статистики целесообразно только тогда, когда наличие и материальная природа связи хотя бы предположительно установлена специальными методами данной науки.

[attention type=yellow]

При наличии действительной связи, установленной на основе конкретного анализа материальной природы изучаемых явлений, статистика дает возможность измерить размер (тесноту, силу) этой связи и установить степень зависимости между изучаемыми явлениями.

[/attention]

Измерение связи заключается в определении ее размеров (тесноты, силы).

Под теснотой связи понимается степень сопряженности связанных признаков, широта варьирования каждого из них при изменении средней величины другого.

Помимо тесноты связи, статистические методы позволяют вскрыть форму этой связи.

По силе связи корреляция колеблется от 0 до 1:

от 0 до 0,3 – слабая,

от 0,3 до 0,69 – средняя,

от 0,7 до 1 – сильная.

При силе связи равной 1 выявлена полная связь (функциональная связь). Сила связи измеряется коэффициентами корреляции.

По характеру связь может быть прямой и обозначается (+) и обратной (-).

Прямая связь – это такая связь, когда изменение одного признака влечет за собой изменение другого в том же направлении. Обратная связь – один признак увеличивается, другой уменьшается.

По форме (или направленности) корреляционные связи подразделяются на прямолинейные, когда наблюдается пропорциональное изменение одного признака в зависимости от изменения другого (графически это выражается в виде прямой линии), и криволинейные, когда одна величина признака изменяется непропорционально изменению другой (на графике эти связи изображаются параболами или иной кривой линией).

Методы сравнения наблюдений, которые независимо от вида распределения называют ранговыми или непараметрическими, т.е. независящими от формы распределения признаков в генеральной совокупности.

Их применение в медико-биологических исследованиях более оправдано хотя бы потому, что они менее трудоемкие по сравнению с другими.

Наиболее часто в этом случае используется метод определения коэффициента корреляции рангов (Спирмена). Этот коэффициент целесообразно использовать, при наличии небольшого числа наблюдений в случаях, когда сопоставляемые данные носят приближенный характер, а форма связи – криволинейна.

При наличии прямолинейной связи между взаимосвязанными компонентными признаками, особенно при большом числе наблюдений, рациональнее прибегать к параметрическим методам оценки, которые требуют вычисления определенных параметров средней величины, среднеквадратического отклонения, средней ошибки. При этом вычисление связи проводится при числе наблюдений 30 и менее сравниваемых пар по методу квадратов (К. Пирсона).

Метод определения коэффициента ранговой корреляции или метод рангов, или метод Спирмена (по автору):

Метод определения коэффициента корреляции рангов (Спирмена)

Последовательность расчета:

7. Определить направление связи. 8. Сделать выводы.

Задача:

Влияние удельного веса нестандартной воды по бак. показателям в Свердловском районе г. Перми на заболеваемость ОКИ.

Вывод: Между уровнем заболеваемости ОКИ и качеством воды существует сильная прямая связь.

Метод квадратов (Пирсона) вычисления коэффициента корреляции.

Этот метод более точен.

Недостаток: может быть использован только для количественных признаков.

Метод квадратов (Пирсона)

Эталон решения

задача: вычислить коэффициент корреляции, определить направление и силу связи между количеством кальция в воде и жесткостью воды, если известны следующие данные (табл. 1). оценить достоверность связи. сделать вывод.

таблица 1

обоснование выбора метода. для решения задачи выбран метод квадратов (пирсона), т.к. каждый из признаков (жесткость воды и количество кальция) имеет числовое выражение; нет открытых вариант.

решение.
последовательность расчетов изложена в тексте, результаты представлены в таблице. построив ряды из парных сопоставляемых признаков, обозначить их через х (жесткость воды в градусах) и через у (количество кальция в воде в мг/л).

таблица 2

пример. влияние введения раннего прикорма

влияние введения раннего прикорма

контрольные вопросы:

1.Какие виды связи могут быть между явлениями в природе и обществе?

2. Определение функциональной связи. Примеры.

3. Понятие о корреляционной связи. Примеры.

4. Направление, сила, форма связи.

5. Методы определения коэффициентов корреляции.

Задачи для самостоятельного решения

Задача 1.Определите характер и силу связи между возрастом пациентов, прошедших углубленный медицинский осмотр, и числом выявленных у них хронических заболеваний. Определите достоверность полученных результатов.

Таблица к Задаче 1.

Задача 2.Проведя анализ представленной таблицы, докажите, что существует зависимость между уровнем распространенности у детей кариеса и потреблением рафинированных углеводов? Какова форма этой зависимости?

Определите достоверность полученных результатов.

Таблица к Задаче 2.

Задача 3. Определите характер и силу связи между загрязненностью воздуха рабочей зоны и частотой возникновения заболеваний органов дыхания, основываясь на данных таблицы. Достоверны ли полученные результаты?

Таблица к Задаче 3.

Задача 4.Определите, существует ли зависимость между количеством детей в группах дошкольных учреждений и заболеваемостью ОРВИ среди них (см. данные таблицы)? Определите достоверность полученных результатов.

Таблица к Задаче 4.

Задача 5. На основании данных, представленных в таблице. Определите силу и характер связи между охватом населения города К. вакцинацией против гриппа и заболеваемостью гриппом.

Таблица к Задаче 5.

Задача 6.

В таблице представлены данные об охвате детского населения (в возрасте 2 лет) профилактическими прививками против эпидемического паротита, а также о заболеваемости детей эпидемическим паротитом за отчетный период в N – ской области. Определите, существует ли зависимость между охватом детского контингента профилактическими прививками и заболеваемостью эпидемическим паротитом.

Таблица к Задаче 6.

ВОПРОСЫ ДЛЯ ТЕСТОВОГО КОНТРОЛЯ

Выберите правильный ответ:

1.По характеру существующих связей между признаками в широком понимании связи подразделяются на:

1. Прямые и обратные

2. Статистические и функциональные

2. Все существующее в живой природе зависимости между признаками изучаются преимущественно:

1. Точными физико-математическими науками

2. Статистикой

3. Для решения элементарной задачи по определению зависимости между признаками и ее направленности рациональнее использовать:

1. Корреляционный анализ

2. Дисперсионный анализ

3. Аналитические группировки

4. Для полной характеристики статистических связей необходимо применять:

  1. Дисперсионный анализ данных
  2. Вычисление различных коэффициентов корреляции
  3. Регрессионный анализ

5. Корреляционная связь характеризуется как связь, при которой:

1. Выявляется полная характеристика особенностей взаимозависимости двух сравниваемых признаков

2. Любому значению одного из признаков соответствует только одно значение другого признака

3. Значению каждой величины одного признака может соответствовать несколько значений другого признака

6. Корреляционный анализ используется с целью:

[attention type=red]

1.Характеристики группового свойства статистической совокупности –репрезентативности данных

[/attention]

2. Оценки распределения изучаемого признака в любой статистической совокупности

3. Установления наличия связей между признаками и ее направленности

4. Изучения взаимозависимости между признаками по форме, направленности, силе и достоверности

7.Степень выраженности корреляции характеризуют коэффициенты:

1. Соотношения

2. Вариации

3. Регрессии

4. Наглядности

5. Стандартизованные

6. Корреляции Пирсона

7. Стьюдента

8. Ранговой корреляции Спирмена

Дополните:

8. По характеру связь между независимыми признаками может быть полной Или____________________, и статистической или______________________.

9. По направленности изменений изучаемых данных зависимость между сравниваемыми признаками может быть двух видов:_________и__________

10. По форме все корреляционные связи подразделяются на ________________ и __________________________.

11. Наиболее простым методом определения силы связи является метод __________________________________.

12. Наиболее точным способом определения степени связи между признаками является метод ___________________________.

13. Какой метод дает возможность определить наличие связи между признаками без определения ее силы ___________________________.

14.Коэффициент корреляции при функциональной связи равен __________________________.

15. Коэффициент корреляции при отсутствии связи равен_____________

16. По силе корреляционные связи подразделяются на

Эталоны ответов:

1. 2

2. 2

3. 3

4. 1

5. 3

6. 3

7. 3.6.8.

8. Функциональной, корреляционной

9. Прямая, обратная

10. Прямолинейные, криволинейные

11. Спирмена

12. Пирсона

13. x

14. 1

15. 0

16. Слабые, средние, сильные.

Критические значения коэффициента корреляции rxy

Критические значения коэффициента корреляции rxy

Критические значения Х2

Критические значения Х2

Источник: https://zen.yandex.ru/media/id/5f4e2f3978b8ab69e2e27820/tema-korreliacionnyi-analiz-5f85c6aa01c3532acc82f852

Корреляционный анализ

Задача №54. Расчёт коэффициента корреляции

Корреляционный анализ – раздел математической статистики, исследующий зависимости между двумя или более случайными величинами. Термин «Correlation» означает взаимосвязь, взаимоотношение.

Функциональная зависимость и корреляция

Еще Гиппократ обратил внимание на то, что между телосложением и темпераментом людей, между строением их тела и предрасположенностью  к заболеваниям существует определенная взаимосвязь.

В области физической культуры и спорта можно привести много примеров такой взаимосвязи. Например, от уровня силы во многом зависит результат, показанный спортсменом в таких видах спорта, как тяжелая атлетика, пауэрлифтинг, гиревой спорт, метание диска и толкание ядра и т.д.

  Результат в беге на 100 м во многом зависит от процента содержания в мышцах спортсменов быстрых мышечных волокон (II типа).  Доказано, что у выдающихся спринтеров этот показатель превышает 80%.

  Чтобы определить, насколько сильна взаимосвязь между переменными (признаками) используется корреляционный анализ.

Две случайные величины X и Y могут быть:

  • связаны функциональной зависимостью (жестко, как зависимость переменных в математическом анализе);
  • независимыми;
  • связаны стохастической (вероятностной зависимостью) при которой изменение одной величины влечет изменение распределения другой.

В качестве меры связи между случайными величинами используется коэффициент корреляции. Коэффициент корреляции для генеральной совокупности обозначается ρ. Однако, как правило, он неизвестен.

Поэтому он оценивается по экспериментальным данным, представляющим выборку объема n, полученную при совместном измерении двух переменных (признаков) X и Y. Коэффициент корреляции, определяемый по выборочным данным называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). Его принято обозначать символом r.

Наиболее часто в качестве оценок генерального коэффициента корреляции используется коэффициент корреляции Пирсона (r) и коэффициент корреляции Спирмена (rs).

Условия, при которых возможен расчет коэффициента корреляции Пирсона:

  1. Экспериментальные данные должны быть представлены в только в интервальной шкале или шкале отношений.
  2. Распределение экспериментальных данных подчиняется нормальному закону.
  3. Предполагается линейная зависимость между случайными величинами X и Y.

Коэффициент корреляции Спирмена (rS)

При расчете коэффициента корреляции Спирмена требования к исходным данным менее строгие, а именно:

  1. Данные могут быть представлены в порядковой, интервальной шкале или шкале отношений.
  2. Допускается любой закон распределения случайных величин X и Y.
  3. Между случайными величинами X и Y должна существовать монотонно-возрастающая или монотонно-убывающая зависимость.

Свойства оценок коэффициентов корреляции

Рассчитанные коэффициенты корреляции могут принимать значения от -1 до +1.

  1. Если коэффициент корреляции равен: r =+1 и r = -1, это означает, что случайные величины X и Y связаны жесткой линейной зависимостью.
  2. Если r ≠ 0, то чем ближе |r| к единице, тем сильнее линейная зависимость случайных величин X и Y.
  3. Если коэффициент корреляции положительный (r > 0) – это означает, что между случайными величинами X и Y существует положительная корреляция (или другими словами положительная корреляционная зависимость). Примером положительной корреляционной зависимости является увеличение результата прыжка в длину с увеличением силы мышц ног (рис.1А).
  4. Eсли коэффициент корреляции отрицательный (r < 0) – это означает, что между случайными величинами X и Y существует отрицательная корреляция (или другими словами отрицательная корреляционная зависимость). Примером отрицательной корреляционной зависимости является уменьшение результата пробегания 100 м с увеличением силы мышц ног (рис. 1Б)
  5. Если коэффициент корреляции равен нулю (r = 0) – это означает, что корреляции нет; случайные величины X и Y некоррелированы (рис. 1В). Другими словами, это означает, что между случайными величинами X и Y нет взаимосвязи.

Геометрическая интерпретация коэффициента корреляции

Корреляция считается положительной, если график имеет выраженное направление из левого нижнего угла в правый верхний угол и с увеличением значений одной переменной другая также увеличивается;

Корреляция считается отрицательной, если график имеет направление из левого верхнего угла в правый нижний, и с увеличением одной переменной, другая уменьшается;

Корреляция отсутствует, когда у корреляционного облака нет четко выраженного направления, точки рассеиваются далеко от воображаемой прямой и нельзя сказать, что с увеличением одной переменной другая уменьшается или увеличивается.

Рис. 1. Геометрическая интерпретация коэффициента корреляции

Значимость коэффициента корреляции

Коэффициент корреляции между случайными величинами X и Y для генеральной совокупности как правило, неизвестен.

Однако его можно оценить, рассчитав выборочный коэффициент корреляции (коэффициент корреляции Пирсона или Спирмена).

Но при заменяя генеральную совокупность выборкой при оценке коэффициента корреляции допускается ошибка. Поэтому важно оценить значимость (достоверность) рассчитанного коэффициента корреляции.

[attention type=green]

Например, в эксперименте участвовало 10 человек. Оценивалась взаимосвязь между результатами в беге на 30 м и 100 м. Получен коэффициент корреляции r = 0,611. Чтобы оценить значимость коэффициента корреляции нужно сравнить его с критическим, величина которого зависит от объема выборки и уровня значимости.

[/attention]

Если фактическое значение коэффициента корреляции больше, чем критическое, это означает, что коэффициент корреляции достоверен (значим). В нашем случае критическое значение коэффициента корреляции при n= 10 и α = 0,05 составляет r0,05 =0,632 (в таблице 1 это значение выделено жирным шрифтом).

Из этого следует, что рассчитанный коэффициент корреляции статистически недостоверен. Приводить его в своих исследованиях нежелательно.

Таблица 1 — Критические значения коэффициента корреляции Пирсона

n0,050,010,001
30,99690,9998770,99999877
40,9500,99000,9990
50,8780,95970,99114
60,8110,91720,9741
70,7540,8750,9509
80,7070,8340,9244
90,6660,7980,898
100,6320,7650,872
200,4440,5610,679
300,3610,4630,570
400,3120,4020,501
500,2790,3610,451

В итоговой таблице необходимо указать объем выборки, чтобы читающий мог оценить значимость (достоверность) вычисленных коэффициентов корреляции.

Иногда в публикациях приводятся только значимые коэффициенты корреляции, а вместо незначимых ставится прочерк. В таблице 2 авторы указали, что объем выборки равен n = 32.

Критическое значение коэффициента корреляции при n = 32 и a = 0,05 составляет r0,05 = 0,349 (В.С.Иванов, 1990). Следовательно, все коэффициенты корреляции достоверны.

Таблица 2 — Значения коэффициентов корреляции между результатами в скоростно-силовых тестах и результатом в толкании ядра с разгоном n=32, спортивный результат группы варьировал от 12,00 м до 20,50. Критическое значение коэффициента корреляции при n = 32 и a = 0,05 составляет r0,05 = 0,349 (по: Я.Е.Ланка, Ан.А.Шалманов, 1982).

Упражнение123456
1Толкание ядра с разгона10,970,840,830,730,73
2Толкание ядра с места10,840,820,740,76
3Бросок ядра назад10,850,710,66
4Бросок ядра вперед10,660,62
5Приседание со штангой10,58
6Жим штанги лежа1

Литература

  1. Боровиков В.П., Боровиков И.П. STATISTICA Статистический анализ и обработка данных в среде Windows.– М.: Филинъ, 1995.– 608 с.
  2. Дюк В. Обработка данных на ПК в примерах.– СПб: Питер, 1997.– 240 с.
  3. Ежевская К.А.

    Особенности динамики показателей скоростных способностей детей 4-6 лет в условиях стандартной тестовой тренировочной программы в детском саду //Теория и практика физической культуры, 1995.– № 3 .–С.15-18.

  4. Жданов Л.Н. Возраст спортивных достижений //Теория и практика физической культуры, 1996.– № 6 .– С. 59-60.
  5. Зациорский В.М.

    Осторожно: статистика! // Теория и практика физической культуры, 1989.– № 2.– С. 52-55.

  6. Катранов, А.Г. Компьютерная обработка данных экспериментальных исследований / А.Г. Катранов, А.В. Самсонова /Учебное пособие.– СПб: СПбГАФК им. П.Ф. Лесгафта, 2005.– 132 с.
  7. Ланка Я.Е., Шалманов Ан. А. Биомеханика толкания ядра. – М: Физкультура и спорт, 1982.- 72 с.

  8. Лапшина Г.Г. Особенности физического состояния студенток гуманитарного факультета // Теория и практика физической культуры, 1989.–№ 4.– С. 18-20
  9. Марченко В.В., Дворкин Л.С., Рогозян В.Н. Анализ силовой подготовки тяжелоатлета в нескольких макроциклах //Теория и практика физической культуры, 1998.– № 8.– С. 18–22.
  10. Основы математической статистики: Учебное пособие для ин-тов физ. культ./ /Под ред. В.С.Иванова. М.: Физкультура и спорт, 1990.– 176 с.
  11. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере.– М.: Финансы и статистика, 1995.– 384 с.

Источник: https://allasamsonova.ru/statistika/korreljacionnyj-analiz/

Простыми словами: коэффициент корреляции в Excel + формула

Задача №54. Расчёт коэффициента корреляции

Приветствую всех читателей моего блога! Давненько я не писал статей по основам инвестирования. Сегодня хочу рассказать вам таком понятии как корреляция, которая имеет отношение к созданию качественного инвестиционного портфеля и диверсификации ваших вложений.

Если говорить о том, что такое корреляция простыми словами, то это по сути связь между двумя явлениями, выраженными в числовой форме. Например, проанализировав данные по ВВП на душу населения и продолжительности жизни в странах мира, мы невооруженным глазом заметим тенденцию:

Корреляция между ВВП и длительностью жизни — 59%

А благодаря расчёту коэффициента корреляции мы можем узнать силу взаимосвязи в конкретном числовом выражении. Это очень удобно и полезно при анализе данных в самых разных областях науки, в том числе в экономике и инвестировании.

Сегодня я расскажу вам подробнее о том, что такое корреляция простыми словами, без сложных формул и терминов. Также я покажу вам, как правильно и легко рассчитать коэффициент корреляции в Excel и как правильно интерпретировать результаты, чтобы использовать их для составления инвестиционного портфеля.

А чтобы не пропускать следующие статьи блога, подписывайтесь на мой Телеграм-канал! Там же я выкладываю отчёты по инвестициям, сообщаю об обновлениях в моем инвест-портфеле и иногда пишу заметки на интересные темы. Даже чатик инвесторов у нас есть, присоединяйтесь :)

Не хочу вас сразу грузить формулами и расчётами, об этом поговорим ближе к концу. Давайте сначала разберемся, что по своей сути означает цифра коэффициента корреляции, которую вы можете встретить в какой-нибудь книге или статье.

Значение коэффициента может меняться от -1 до +1:

[attention type=yellow]

Если значение близко к единице или минус единице — значит два явления так или иначе сильно взаимосвязаны. Впрочем, причины этого не всегда очевидны — явление А может влиять на явление B, может быть наоборот. Нередко бывает, что существует явление C, которое приводит в движение А и В одновременно. В общем, природа корреляции — это уже второй вопрос, которым должны заниматься исследователи.

[/attention]

Околонулевые значения, в свою очередь, говорят об отсутствии какой-либо зависимости между явлениями. Нет конкретного предела, где заканчивается случайность и начинается взаимосвязь, все зависит от предмета исследования и количества данных. Навскидку, обычно при значениях от -0.3 до 0.3 можно говорить о том, что зависимость отсутствует.

При высокой положительной корреляции вслед за графиком А растёт и график B, и чем выше значение, тем слаженнее оба движутся. Для наглядности, вот как выглядит корреляция +1:

Движения графиков полностью повторяют друг друга, причем это как в случае простого добавления, так и с множителем.

При сильной отрицательной корреляции рост графика А приводит к падению графика B и наоборот. Вот так выглядит корреляция -1:

Движения графиков похожи на зеркальные отражения.

Коэффициент корреляции — удобный инструмент для анализа во многих сферах науки и жизни. Его легко рассчитать в Excel и применить, поэтому самая большая сложность в работе с ним — грамотно подобрать данные для расчёта. Основное правило — чем больше данных, тем лучше. Многие взаимосвязи проявляют себя лишь на длинной дистанции.

Также нужно следить за тем, чтобы найденные корреляции не были ложными.

↑ К СОДЕРЖАНИЮ ↑

Ложные корреляции

Дело в том, что с помощью коэффициента корреляции можно проверить на взаимосвязь любые явления, которые можно выразить в числовом выражении. То есть, реально любые — например количество свадеб в Нью-Йорке и объем импорта нефти в США из Норвегии:

tylervigen.com — если знаете английский, сможете отыскать на сайте
еще больше странных корреляций

Корреляция составила 86%! Действительно ли свадьбы влияют на экспорт нефти? Разумеется, нет — подобная зависимость совершенно случайна. Именно так выглядит ловушка ложной корреляции — она может показать взаимосвязь там, где её на самом деле нет.

[attention type=red]

Не хочу сильно заострять внимание на этой проблеме, так что если интересно поразбираться — нашел для вас видео, в котором найдете еще несколько примеров странных взаимосвязей и причины их появления:

[/attention]

В общем, на результаты корреляционного анализа есть смысл обращать внимание, когда связь между явлениями уже известна или подозревается. В противном случае это может быть всего лишь число, которое ничего не значит.

↑ К СОДЕРЖАНИЮ ↑

Корреляция и диверсификация

Как знания о корреляции активов могут помочь лучше вкладывать деньги? Думаю, вы все хорошо знакомы с золотым правилом инвестора — не клади все яйца в одну корзину.

Речь, естественно, идёт о диверсификации инвестиционных активов в портфеле.

Корреляция и диверсификация неразрывно связаны, что понятно даже из названия — английское diversify означает «разнообразить», а как коэффициент корреляции как раз показывает схожесть или различие двух явлений.

Другими словами, инвестировать в финансовые инструменты с высокой корреляцией не очень хорошо. Почему? Все просто — похожие активы плохо диверсифицируются. Вот пример портфеля двух активов с корреляцией +1:

Как видите, график портфеля во всех деталях повторяет графики каждого из активов — рост и падение обоих активов синхронны. Диверсификация в теории должна снижать инвестиционные риски за счёт того, что убытки одного актива перекрываются за счёт прибыли другого, но здесь этого не происходит совершенно. Все показатели просто усредняются:

Портфель даёт небольшой выигрыш в снижении рисков — но только по сравнению с более доходным Активом 1. А так, никаких преимуществ по сути нет, нам лучше просто вложить все деньги в Актив 1 и не париться.

А вот пример портфеля двух активов с корреляцией близкой к 0:

Где-то графики следуют друг за другом, где-то в противоположных направлениях, какой-либо однозначной связи не наблюдается. И вот здесь диверсификация уже работает:

Мы видим заметное снижение СКО, а значит портфель будет менее волатильным и более стабильно расти. Также видим небольшое снижение максимальной просадки, особенно если сравнивать с Активом 1. Инвестиционные инструменты без корреляции достаточно часто встречаются и из них имеет смысл составлять портфель.

Впрочем, это не предел. Наиболее эффективный инвестиционный портфель можно получить, используя активы с корреляцией -1:

Уже знакомое вам «зеркало» позволяет довести показатели риска портфеля до минимальных:

[attention type=green]

Несмотря на то, что каждый из активов обладает определенным риском, портфель получился фактически безрисковым. Какая-то магия, не правда ли? Очень жаль, но на практике такого не бывает, иначе инвестирование было бы слишком лёгким занятием.

[/attention]

↑ К СОДЕРЖАНИЮ ↑

Коэффициент корреляции и ПАММ-счета

С расчётом корреляции я как студент экономического ВУЗа познакомился еще на втором курсе. Тем не менее, долгое время недооценивал важность расчёта корреляции именно для подбора ПАММ-портфеля. 2018 год очень четко показал, что ПАММ-счета с похожими стратегиями в случае кризиса могут вести себя очень похоже.

Случилось так, что с середины года отказала не просто одна стратегия управляющего, а большинство торговых систем, завязанных на активные движения валютной пары EUR/USD:

Рынок был для каждого управляющего по-своему неблагоприятным, но присутствие их всех в портфеле привело к большой просадке. Совпадение? Не совсем, ведь это были ПАММ-счета с похожими элементами в торговых стратегиях. Без опыта торговли на рынке Форекс может быть сложно понять, как это работает, но по корреляционной таблице степень взаимосвязи видна и так:

Мы ранее рассматривали корреляцию вплоть до +1, но как видите на практике даже совпадение в районе 20-30% уже говорит о некоторой схожести ПАММ-счетов и, как следствие, результатов торговли.

Чтобы снизить шансы на повторение ситуации, как в 2018 году, я считаю в портфель стоит подбирать ПАММ-счета с низкой взаимной корреляцией. По сути, нам нужны уникальные стратегии с разными подходами и разными валютными парами для торговли.

На практике, конечно, сложнее подобрать прибыльные счета с уникальными стратегиями, но если хорошо покопаться в рейтинге ПАММ-счетов, то все возможно.

К тому же, низкая взаимная корреляция снижает требования для диверсификации, 5-6 счетов вполне хватит.

[attention type=yellow]

Пару слов о расчёте коэффициента корреляции для ПАММ-счетов. Достать сами данные относительно несложно, в Альпари прямо с сайта, для остальных площадок через сайт investflow.ru. Однако с ними нужно сделать небольшие преобразования.

[/attention]

Данные о прибыльности ПАММов изначально хранятся в формате накопленной доходности, нам это не подходит. Корреляция стандартных графиков доходности двух прибыльных ПАММ-счетов всегда будет очень высокой, просто потому что они все движутся в правый верхний угол:

У всех счетов положительная корреляция от 0.5 и выше за редким исключением, так мы ничего не поймем. Реальное сходство стратегий ПАММ-счетов можно увидеть только по дневным доходностям.

Рассчитать их не особо сложно, если знаете нужные формулы доходности.

Если прибыль или убыток двух ПАММ-счетов совпадают по дням и по процентам, высока вероятность что их стратегии имеют общие элементы — и коэффициент корреляции нам это покажет:

Как видите, некоторые корреляции стали нулевыми, а некоторые остались на высоком уровне. Мы теперь видим, какие ПАММ-счета действительно похожи между собой, а какие не имеют ничего общего.

Напоследок давайте разберёмся, что делать и как посчитать корреляцию, если у вас появилась в этом необходимость.

↑ К СОДЕРЖАНИЮ ↑

Коэффициент корреляции в Excel и формула расчёта

Вероятно, вас интересует, как самостоятельно рассчитать корреляцию двух инвестиционных активов. До изобретения компьютеров приходилось делать это вручную, для чего использовалась вот такая формула коэффициента корреляции:

  • Rxy — коэффициент корреляции;
  • COVxy — ковариация переменных X и Y;
  • σX, σY — стандартное отклонение переменных X и Y
  • X и Y с чертой — среднее значение Х и Y

Кстати, студентам на экзамене до сих пор компьютеров не выдают, хоть калькулятор можно и на том спасибо. Как вы понимаете, занятие все равно трудоёмкое :)

Профессиональному инвестору может понадобиться рассчитать сотни корреляций, так что вариант по формуле не подходит. Естественно, эта задача уже давно автоматизирована, и, как по мне, проще всего рассчитать коэффициент корреляции в Excel.

Чтобы далеко за примером не ходить, давайте рассчитаем корреляцию двух популярных ПАММ-счетов Lucky Pound и Hohla EUR. Они находятся на площадке компании Alpari, а значит мы можем скачать историю доходности прямо с сайта:

[attention type=red]

Далее нам надо скопировать историю доходности в один файл, для удобства. Для точного расчета корреляции в Excel нам в принципе хватит и двух лет истории, располагаем данные так:

[/attention]

Теперь, как я уже писал выше, для ПАММ-счетов (и для многих других инвестиционных инструментов) надо рассчитать дневные доходности:

А дальше все просто — используется встроенная формула коэффицента корреляции в Excel =КОРРЕЛ():

Получили значение 0.12, а значит стратегии ПАММ-счетов практически не имеют ничего общего. Это хорошо для диверсификации, так что можно добавлять обоих в инвестиционный портфель.

При желании, можно сделать табличку на весь ваш портфель. Тогда если у вас появится новый вариант для инвестирования, вы сможете сразу сравнить его с каждым активом и увидеть, есть ли нежелательные корреляции.

↑ К СОДЕРЖАНИЮ ↑

Мне понравилось работать над этой темой и статья получилась неплохой. Если вы согласны с этим, сделайте доброе дело и поделитесь ссылочкой с друзьями и коллегами :)

Ну а я пошел делать следующую статью. Есть еще одна интересная тема по основам инвестирования, которую я хочу подробно обсудить… Будет обидно, если пропустите, так что подписывайтесь на обновления блога по почте или через соцсети.

До встречи и успешных вам инвестиций!

Источник: https://webinvestor.pro/koeffitsient-korrelyatsii-v-excel-formula/

Все о банке
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: