공분산이란?
두개의 데이터의 선형관계를 알고싶을때 사용하는 공식.
예를들어 변수X는 나이를 뜻하고, Y는 연봉을 뜻 한다고 할때 이 두개의 관계를 알고 싶다고 가정해보자.
나이의 범위는 20~30, 연봉의 범위는 2500~5,000 까지라고 할때 나이가 많을수록 연봉이 높은지 아니면 관계가 없는지를 알고 싶을때 어떻게 구할수 있는가??
|
나이
|
연봉
|
|
10대
|
2000
|
|
20대
|
3000
|
|
30대
|
4000
|
|
40대
|
5000
|
|
50대
|
6000
|
우선 분산을 다시 생각 해보자 분산이란 내가 가진 데이터가 얼마나 퍼져있는가를 구할때 사용되고 이 공식은 ∑(X-X의평균)²/n 이다.
X-X의 평균을 오차라 정의 하고 오차 제곱의 합을 분자로 두고 이걸 X의 개수 만큼 나눈걸 우린 분산이라고 한다.
분자를 주목해보자 오차 제곱의 합이다.
우리가 공분산을 통해 알고자 하는것은 두 변수 간의 상관 관계이기에 두 변수간의 오차를 곱해 준다면 두 변수의 상관 관계를 알 수 있지 않을까?
나이(X)와 연봉(Y)오차를 곱한뒤에 전부 더해준다면 어떻게 될까?
∑(10-30)(2000-4000),(20-30)(3000-4000)......(50-30)(6000-4000)
이처럼 x가 -일때 y도-가 되고 +일때 +가 되어 곱을 하게 된다면 모든 오차의 제곱은 +가 되고 이들의 합 또한 +가 된다. 이걸 두 변수의 오차 곱셈의 합이라 하고 이걸 n으로 나누게 되면 공분산이 된다.
공분산 값에 따른 상관 관계
그렇다면 공분산은 무조건 양수 일때만 상관 관계가 있는가?? 그건 아니다
위의 표에서 연봉이 역순이라고 생각 해보자.
∑(10-30)(6000-4000),(20-30)(5000-4000)......(50-30)(2000-4000)
(-20)(20),(-10)(1000).....(20)(-2000) 이처럼 모든 값이 음수로 나오게 되고 합이 음수이고 n으로 나누게 된 값이 음수로 나온다면 음의 상관관계를 가지게 되는 것이다.
또한 값이 0에 가까울수록 두 관계는 상관관계를 가지지 않게 되는 것이라고 설명 할 수 있다.
공분산의 한계와 상관 계수
공분산의 표기는 covariance의 약자인 COV(변수X,변수Y)로 표기하고 COV(나이,연봉)=8,000 이 나오게 되는데 우린 양의 상관 관계인것은 알 수 있지만 8000이란 수를 통해서 이 값이 얼마나 큰지에 대해서는 알 수 가 없다.
왜냐하면 x와 y의 범위가 너무나도 차이가 크고 값이 의미하는 바가 너무나도 다르기 때문이다.
이러한 한계로 x,y가 다른 지표와 비교했을때 더 상관관계가 크다를 말 할 수 있게 하기 위해 구하는 것이 상관 계수이다.
상관계수, 말 그대로 상관관계의 계수를 말하며 우리가 할 수 있는 무한한 변수들간의 상관 계수를 어떻게 하면 구할수 있을까? 즉, 변수 X,Y 의 값이 서로 다른데 어떻게 하면 이 값이 얼마나 큰지 안큰지를 알 수 있을까?
이때 우리는 변수X와 Y 각각의 표준편차를 곱한뒤에 분자에 나누어 주게 된다.
그렇다면 상관 계수의 최종공식은 COV(변수X,변수Y) / X의 표준편차*Y의 표준편차가 된다.

이 공식을 대입하면 상관 계수는 -1~1의 값을 가지게 된다.
상관 계수의 특징
- 상관계수는 절대값이 1에 가까울수록 강한 상관 관계를 나타낸다.(X,Y의 상관관계가 강하다라고 할 수 있다.)
- 상관계수는 변수 X,Y가 우연히 강한 상관 관계를 나타낼 수 있기 때문에 계수가 높다고 무조건 상관 관계가 있는것이 아니다
- 상관계수가 높다고 무조건 인과 관계가 성립하는것은 아니다.
- 상관 계수의 절대값이 높을수록 선은 기울기가 가파른 것이 아니라 보다 선의 형태를 띄게 된다.(직선에 가깝게 된다.)
- 상관 계수가 0에 근접한다고 하여 상관 관계가 무조건 없는것은 아니다. ex)아래의 w형태 등
