회귀 분석이란?
회귀 분석이란
독립 변수를 가지고 종속 변수를 예측 하고 종속 변수에 대한 독립 변수의 영향을 측정, 설명 하는데 사용 된다.
예시로 독립 변수와 종속 변수 회귀분석 알아보기
키가 160~ 175 사이 남자에 대한 키와 몸무게라는 데이터가 있다고 가정 해보자.
키와 몸무게는 통상적으로 상관관계가 있다고 가정 하였을때, 키가 있기 때문에 몸무게가 존재 한다고 생각하여
독립 변수를 키로 지정하고 종속 변수는 몸무게로 지정하였다.
우리가 가진 데이터로 175 보다 크거나 160 보다 작은 사람은 몸무게를 예측 할때 사용 하는것이 회귀 분석이라고 생각 하고 이때 키라는 독립 변수를 통하여 몸무게라는 종속 변수를 설명 할 수 있다.
선형 회귀 분석
선형 회귀 분석이란 내가 가진 데이터내에서 이 데이터를 가장 잘표현 하는 선을 하나 그어서 그 선으로 회귀 분석을 하는 것을 의미 한다.
예시로 선형 회귀 분석 알아보기

우리가 키와 몸무게에 대한 데이터를 위의 왼쪽과 같은 그래프로 그렸다고 가정 해보자.
위에 설명하였듣이 선형 회귀 분석이란 이 데이터를 가장 잘표현하는 선을 하나 그리는 거라고 하였다.
그렇다면 오른쪽 그림에서 왼쪽 데이터를 가장 잘표현하는 선은 우리는 직감적으로 빨간색 선인 것을 알 수 있다.
왜냐 하면 빨간색 선 이외에 선들은 키가 증가 할수록 몸무게를 잘 따라 가지 못하고 있기 때문에 그렇게 느껴 질 것이다.

가장 좋은 선을 선택하는 방법 - SSE(SUM OF SQUARE ERROER) 오차 제곱 합
이전의 그림에서는 선이 헷갈리지 않았지만 위의 그림처럼 여러 선들이 비슷비슷하게 보일 경우에
우리는 SSE 오차제곱합을 구하여 값이 가장 작은 선을 가장 좋은 선이라고 할 수 있다.
SSE 말그대로 SUM 더한다 SQUARE ERROR 오차 제곱을,
SQUARE ERROR란 무언인가?

하나의 선을 그렸을때 우리는 독립변수 X(키)에 따른 종속변수 Y(몸무게)를 가지고 있다.
이 선을 그렸을때 실제 X에 대한 Y값과 우리가 그린 선의 차이를 오차(ERROR)라고 한다.
이 값들은 음수, 양수 두 값을 모두 가지고 있기 때문에 선들을 비교 하기 위해서는 차이의 절대값을 사용하거나 오차를 제곱 하여서 각 선들을 비교한다.
우리가 구한 선에서 각각의 실제 값들을 빼고 제곱한 값들의 합을 SSE라 얘기하며 이값이 다른 선들에 비하여 가장 작은 값을 가진것이 해당 데이터를 가장 잘 표현한 선, 선형 회귀라고 할 수 있다.
그렇다면 선을 어떻게 그려야 되나요?? - 선의 기울기와 절편 구하는 공식
우리가 구하려는 선은 중학교때 배우는 y = ax + b 라는 공식에 대입하여서 표현 할 수 있는데
2차 방적식에서는 y=종속 변수, x=독립변수의값, a=독립변수의 보정값, b = 절편 이라고 할 수 있고,
통계학에서는 아래와 같이 표현 된다.

위에 표시하였듣이 기울기는 독립변수가 종속변수에 얼마나 영향을 끼치는지에 대한 값이라고 하였다.
그렇다면 이 영향력은 어떻게 구하여야 되는가?
이는 x,y의 공분산을 x의 분산으로 나누었는 값으로 y에 대한 x의 영향력을 알 수 있는데 기울기의 식은 아래와 같다.

기울기를 위와 같은 공식으로 구한뒤 y,x의 평균 값에 기울기를 대입하였을때 부족한 값을 추가 해주는게 절편이다.