Корелация. Въведение и първи принципи
Въведение
Как можем да предвидим една променлива, като знаете друга? Например, могат ли данните за продажбите да предскажат нивата на удовлетвореност на клиентите?
Дефиниция
- Корелацията измерва линейната връзка между две променливи.
- Тя ни казва как, когато една променлива се увеличава или намалява, друга променлива има тенденция да се увеличава, намалява или остава непроменена.
Значение на корелацията
- Предсказваща сила: Помага при прогнозиране на една променлива с използване на друга.
- Идентификация на връзката: Идентифицира връзките между икономически, финансови и други бизнес променливи.
Диаграма на разсейване
Видове корелация
Корелацията между променливите може да се класифицира по няколко начина, в зависимост от това каква е динамиката на променливите една спрямо друга.
Положителна корелация
- Дефиниция: И двете променливи се движат в една и съща посока.
- Пример: С повишаване на температурата продажбите на сладолед също се увеличават.
Положителна корелация
Отрицателна корелация
- Дефиниция: Когато една променлива се увеличава, другата намалява.
- Пример: Броят на часовете, прекарани в гледане на телевизия, се увеличава, оценките са склонни да намаляват.
Отрицателна корелация
Нулева корелация
- Дефиниция: Няма забележима връзка между движенията на две променливи.
- Пример: Размер на обувката и умение за четене при възрастни.
Нулева корелация
Коефициенти на корелация
Коефициентите на корелация определят количествено силата и посоката на връзката между две променливи.
Коефициент на корелация на Пиърсън
Визуализиране на корелацията
Причини:
- Яснота: Визуализацията улеснява откриването на тенденции и взаимовръзки.
- Анализ: Предлага по-лесно да добием представа за естеството и силата на връзките между променливите.
Диаграми на разсейване
Heat maps
Тълкуване на коефициентите на корелация
- Интервал: От -1 до 1
- 1: Перфектна положителна линейна връзка
- -1: Перфектна отрицателна линейна връзка
- 0: Няма линейна връзка
Примери за корелационни стойности
На практика
- Контекстът е ключов: Значението на стойността на корелация може да се различава в зависимост от контекста и включените променливи.
- Разпределение на данните: Трябва да сме сигурни, че в данните нямат необичайни наблюдения, които могат да изкривят корелацията.
- Размер на извадката: По-големите извадки предоставят по-надеждни корелационни оценки.
Корелацията не предполага причинно-следствена връзка
Трябва да знаем разликата между корелация и причинно-следствена връзка за да се избегнем подвеждащи заключения.
Какво е причинно-следствена връзка?
- Причинно-следствена връзка: предполага, че едно събитие е резултат от настъпването на другото събитие; има причинно-следствена връзка между двете събития.
- Ключова характеристика: Причинно-следствената връзка предполага, че промяната в една променлива води до промяна в друга променлива.
Примери за подвеждащи корелации
- Продажби на сладолед и атаки на акули
- И двете се увеличават през летните месеци, но нарастващите продажби на сладолед не причиняват атаки на акули.
- Брой пожарникари и щети
- Повече пожарникари при по-тежки пожари; но те невинаги причиняват повече щети.
Примери за подвеждащи корелации
Как да избегнем неправилно тълкуване
- Идентифициране на причинно-следствени връзки: Има ли основен фактор, който влияе и на двете променливи?
- Въздействие на външните фактори: Има ли други променливи, които влияят на резултатите?
Прогнозиране на пазарните тенденции
- Цени на акциите и икономически показатели: Корелацията между макроикономически показатели (като темпове на растеж на БВП) и цените на акциите може да ръководи инвестиционните стратегии.
Прогнозиране на пазарните тенденции
Диверсификация на портфейла
- Класове активи: Анализирането на корелацията между различните класове активи помага при изграждането на диверсифициран инвестиционен портфейл, който минимизира риска.
Диверсификация на портфейла