Корелация. Въведение и първи принципи

Виктор Аврамов

Въведение

Как можем да предвидим една променлива, като знаете друга? Например, могат ли данните за продажбите да предскажат нивата на удовлетвореност на клиентите?

Дефиниция

  • Корелацията измерва линейната връзка между две променливи.
  • Тя ни казва как, когато една променлива се увеличава или намалява, друга променлива има тенденция да се увеличава, намалява или остава непроменена.

Значение на корелацията

  • Предсказваща сила: Помага при прогнозиране на една променлива с използване на друга.
  • Идентификация на връзката: Идентифицира връзките между икономически, финансови и други бизнес променливи.

Разлика между корелация и причинно-следствена връзка

  • Корелация: Показва степента, в която две променливи се движат в синхрон една с друга.
  • Причинно-следствена връзка: предполага, че една променлива пряко влияе върху друга.
  • Трябва да имаме предвид: Корелацията не предполага причинно-следствена връзка.
  • Причинно-следствените връзки произтичат от опита и знанието ни за проблема, който искаме да решим.

Пример

Месец Продажби (хил.) Клиентско удовлетворение (От 100)
January 48 78
February 55 82
March 43 75
April 50 79
May 60 85
June 65 88
July 58 84
August 64 87
September 54 83
October 57 82
November 53 80
December 62 86

Диаграма на разсейване

Видове корелация

Корелацията между променливите може да се класифицира по няколко начина, в зависимост от това каква е динамиката на променливите една спрямо друга.

Положителна корелация

  • Дефиниция: И двете променливи се движат в една и съща посока.
  • Пример: С повишаване на температурата продажбите на сладолед също се увеличават.

Положителна корелация

Отрицателна корелация

  • Дефиниция: Когато една променлива се увеличава, другата намалява.
  • Пример: Броят на часовете, прекарани в гледане на телевизия, се увеличава, оценките са склонни да намаляват.

Отрицателна корелация

Нулева корелация

  • Дефиниция: Няма забележима връзка между движенията на две променливи.
  • Пример: Размер на обувката и умение за четене при възрастни.

Нулева корелация

Коефициенти на корелация

Коефициентите на корелация определят количествено силата и посоката на връзката между две променливи.

Коефициент на корелация на Пиърсън

  • Дефиниция: Измерва линейната връзка между две променливи на интервала или съотношението.
  • Формула: \(r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^ 2 \sum (Y_i - \bar{Y})^2}}\)
  • Свойства:
  • Стойностите варират от -1 до 1.
  • Стойност 1 предполага перфектна положителна линейна връзка, -1 предполага перфектна отрицателна линейна връзка, а 0 предполага липса на линейна връзка.

Коефициент на корелация на Пиърсън

Визуализиране на корелацията

Причини:

  • Яснота: Визуализацията улеснява откриването на тенденции и взаимовръзки.
  • Анализ: Предлага по-лесно да добием представа за естеството и силата на връзките между променливите.

Диаграми на разсейване

Heat maps

Тълкуване на коефициентите на корелация

  • Интервал: От -1 до 1
    • 1: Перфектна положителна линейна връзка
    • -1: Перфектна отрицателна линейна връзка
    • 0: Няма линейна връзка

Примери за корелационни стойности

  • Висока положителна корелация: \(r = 0,9\)
  • Силна положителна връзка; тъй като една променлива се увеличава, другата има тенденция да се увеличава значително.
  • Умерена отрицателна корелация: \(r = -0,5\)
  • Умерено негативна връзка; тъй като една променлива нараства, другата има тенденция да намалява умерено.
  • Слаба корелация: \(r = 0,2\) или \(r = -0,2\)
  • Слаба връзка; промените в една променлива имат слаба връзка с промените в другата.

Примери за корелационни стойности

На практика

  • Контекстът е ключов: Значението на стойността на корелация може да се различава в зависимост от контекста и включените променливи.
  • Разпределение на данните: Трябва да сме сигурни, че в данните нямат необичайни наблюдения, които могат да изкривят корелацията.
  • Размер на извадката: По-големите извадки предоставят по-надеждни корелационни оценки.

Корелацията не предполага причинно-следствена връзка

Трябва да знаем разликата между корелация и причинно-следствена връзка за да се избегнем подвеждащи заключения.

Какво е причинно-следствена връзка?

  • Причинно-следствена връзка: предполага, че едно събитие е резултат от настъпването на другото събитие; има причинно-следствена връзка между двете събития.
  • Ключова характеристика: Причинно-следствената връзка предполага, че промяната в една променлива води до промяна в друга променлива.

Примери за подвеждащи корелации

  1. Продажби на сладолед и атаки на акули
  • И двете се увеличават през летните месеци, но нарастващите продажби на сладолед не причиняват атаки на акули.
  1. Брой пожарникари и щети
  • Повече пожарникари при по-тежки пожари; но те невинаги причиняват повече щети.

Примери за подвеждащи корелации

Как да избегнем неправилно тълкуване

  • Идентифициране на причинно-следствени връзки: Има ли основен фактор, който влияе и на двете променливи?
  • Въздействие на външните фактори: Има ли други променливи, които влияят на резултатите?

Приложения в бизнеса

Прогнозиране на пазарните тенденции

  • Цени на акциите и икономически показатели: Корелацията между макроикономически показатели (като темпове на растеж на БВП) и цените на акциите може да ръководи инвестиционните стратегии.

Прогнозиране на пазарните тенденции

Диверсификация на портфейла

  • Класове активи: Анализирането на корелацията между различните класове активи помага при изграждането на диверсифициран инвестиционен портфейл, който минимизира риска.

Диверсификация на портфейла