Коефіцієнт кореляції та детермінації
Щоб пояснити, що саме являє собою коефіцієнт детермінації та як він пов’язаний з коефіцієнтом кореляції, розглянемо питання про декомпозицію дисперсій.
У статистиці різницю прийнято називати загальним відхиленням. Різницю називають відхиленням, яке можна пояснити, виходячи з регресійної прямої. Різницю називають відхиленням, яке не можна пояснити, виходячи з регресійної прямої, або не пояснюваним відхиленням. Загальне відхилення розкладається на дві складові:
= +
Піднесемо ці різниці до квадрату і просумуємо для всіх одиниць спостереження. Одержимо:
- загальна сума квадратів
- сума квадратів, що пояснює регресію;
- сума квадратів помилок.
Справедливий такий вираз:
= + .
Поділивши цей вираз на п, отримаємо вираз для дисперсій:
+ ,
де
- загальна дисперсія ознаки у;
- дисперсія, що пояснює регресію;
- дисперсія помилок.
Таким чином ми здійснили декомпозицію дисперсії, тобто розклали загальну дисперсію на дві частини: дисперсію, що пояснює регресію, та дисперсію помилок (або дисперсію випадкової величини). Запишемо це у такому вигляді:
.
Поділимо обидві частини на загальну дисперсію і отримаємо:
У цьому виразі перша частина – це частка дисперсії, що пояснюється регресією, а друга – частка помилок в загальній дисперсії.
Частина дисперсії, що пояснює регресію, називається коефіцієнтом детермінації і позначається r2. Коефіцієнт детермінації використовується як критерій адекватності моделі, бо є мірою пояснювальної сили незалежної змінної х.
Коефіцієнт детермінації визначається за формулою:
, або
Коефіцієнт детермінації завжди позитивний і перебуває в межах від нуля до одиниці. Він показує, яка частка коливань результативної ознаки y зумовлена коливанням факторної ознаки х.Звичайно, нас цікавить, чи є зв’язок між коефіцієнтом кореляції та коефіцієнтом детермінації, і якщо є , то який? Перш ніж відповісти на це питання, розглянемо зв’язок між коефіцієнтом кореляції та нахилом регресійної лінії, тобто параметром а1. Нагадаємо формули для розрахунків коефіцієнта кореляції та нахилу: