본문 바로가기

카테고리 없음

위치, 변이, 모양 통계학

위치 통계량

--중앙값(median)--

자료를 작은 값 부터 큰 값으로 나열을 하였을 때 중앙에 있는 값

자료에 극단값(이상치)가 있을때 평균을 대신하여 중앙값으로 대푯값을 대신 할 수도 있다

--최빈값(mode)--

자료에서 가장 많은 비중을 차지하고 있는 값

최빈값은 자료에서 여러개 일 수 도 있고, 없을 수도 있다.

최빈 값이 2개 면 바이 모달, 3개 이상이면 멀티 모달이라고 한다.

--평균(mean)--

모든 자료의 평균을 얘기 하며 가장 많이 사용 되는 대표 값이다

--평균의 종류--

산술 평균

가장 일반적인 평균 모든값을 전부 더한 후 갯수대로 나눈 값

가중 평균

모든 자료의 평균을 구할때 항목 별,집단 별 가중치를 줄 때 사용되는 방법

ex) 한 회사에 사원들은 평균 연봉이 5000만원이고, 과장은 8000만원 일때 산술평균으로 이 회사의 사원과 과장의 평균 연봉은 6500만원이 된다.

그런데 여기서 사원은 전체의 70% 과장은 전체의 30% 의 비중을 가지고 있을때 가중 평균을 구하게 된다면 (0.7*5000)+(0.3*8000)=3500+2400=5900 만원이 되게 된다

기하 평균

성장률, 상승률 등 하나의값에 대하여 누적으로 곱셈의 변화 발생 하였을때 평균을 구하는 방식이다.

ex) A씨는 1000만원어치 주식을 넣어 2년동안 각각 40,10% 가 상승하였다.

1000 * 1.4 * 1.1 = 1,540

이때 산술 평균인 (40+10)/2 = 25%를 적용하게 된다면

1000*1.25*1.25 = 1,562.5 이처럼 원래의 값과 달라지게 된다.

이처럼 하나의 값에 누적하여 곱셈을 하게 되는 경우엔 산술 평균이 아닌 기하 평균을 적용 하여야 된다.

공식처럼 모든 값을 곱한뒤 n의 루트를 씌어 주면된다.

1.4*1.1의 루트를 씌우면 약 1.24가 나오며

1000 * 1.24 *1.24 = 1,537.6로 산술 평균 보다 값에 더 근접하게 나온다(루트를 씌어서 소수점 2자리에서 짤라서 값이 다르게 나옴)

조화 평균

구하고자 하는 값의 평균이 비율, 혹은 어떤 값들의 곱셈으로 이루어진 값들의 평균을 구할 때 사용 한다.

속력등 각각의 값이 특정한 값들의 조화를 이루어서 이루어지는 값들의 평균이라고 생각 중이다.

ex)A씨는 총 10km의 거리를 가야 되는데 처음 5km는 속력 5km로 걸어 갔으나 너무 힘이들어 남은 5km는 전동킥보드를 타고 갔으며 전동 킥보드는 15km의 속력으로 간다.

이때 산술 평균인 5+15/2 = 10km로 A씨는 총 10km를 약 1시간만에 도착 했다고 나오지만 사실 1시간은 처음 5km를 걸어갔을때 이미 지나가게 된다.

따라서 속력은 시간과 거리의 비율로 이루어져있기 때문에 조화평균을 사용해서 계산을 해야된다

조화 평균의 공식으로 역수합 = 1/5+1/15 = 4/15

4/15를 n인 2로 나누면 4/30을 역수로 하면 30/4 = 7.5

평균 7.5km로 갔고 총 걸린 시간은 1시간 20분이 나온다

변이 통계량

변이 변동성 즉 데이터들이 얼마나 퍼져있는지에 대한 척도 이다.

범위, 분산, 표준편차, 사분위수가 있으며 사분위수는 시각화를 위해Box plot으로 표현한다.

각 값의 공식

출처 : 슬라이드 플레이어

범위 : 말 그대로 데이터의 범위를 말한다 MAX-MIN 값의 차이를 말한다

분산 : 해당하는 집단의 평균을 구하고 집단의 모든 값들을 평균만큽 뺀 값들의 제곱 합을 구한뒤 데이터의 수만틈 나눈 값

 

표준편차 : 분산에 루트를 씌워 나온 값

변동 계수 : 표준편차를 평균으로 나눈 값의 백분율이다. 다른 값들간의 비교를 위해 사용 한다.

ex)키와 몸무게

A그룹 키의 평균과 표준편차는 각각 170 , 10 이고 몸무게의 평균과 표준편차는 각각 60,10 일때 편차가 10으로 동일 하지만 값의 단위가 달라 변동성이 같다고 할 수 없다. 이럴때 표준편차를 평균으로 나누어서 변동계수를 구하면 A그룹의 키의 변동계수는 1/17*100 이고 몸무게의 변동계수는 1/6*100 으로 몸무게의 변동성이 더 크다고 할수있다.

분산과 표준편차의 특징

각 값에 평균을 뺀값의 합은 0이 되기 때문에 나온값들을 제곱을 하여 더한값이다 때문에 분산은 무조건 양수가 나오며 분산에 루트를 씌운 표준편차또한 무조건 양수가 되게 된다.

분산은 제곱을 하여 단위가 원래의 단위랑 다르게 되는 특징이 있다.

원단위로 환원하기 위해 표준편차를 사용한다.

값이 하나로만 이루어진 데이터는 표준편차와 분산이 0이다.

사분위수

Q1 : 데이터 25%의 위치에 해당하는 값

Q3 : 데이터 75%의 위치에 해당하는 값

median : 데이터의 중앙에 위치하는 값

Q3-Q1을 IQR이라고 부르며 IQR을 이용하여 outlier 이상치의 유무를 판단하는데 사용한다.

모양 통계량

왜도, 첨도가 있으며 왜도는 모양에 따라 아래와 같이 불린다.

Negative direction -> 왼꼬리 긴 분포

Positive direction -> 오른꼬리 긴 분포

왜도 모양에 따라 각 값들의 크기 비교는 다음과 같다.

왼꼬리 분포의 경우 최빈값(mode) > 중앙값(median) > 평균(mean)

오른꼬리 분포의 경우 평균(mean) > 중앙값(median) > 최빈값(mode)

왼꼬리 분포일 경우 왜도값은 음수를 가지며 오른꼬리 분포일 경우 왜도은 양수를 가진다.

첨도의 경우 양수이면 정규분포보다 뾰족하고 음수면 정규분포보다 납작하다.

위 공식이 있으며 각각의 값은 python pandas의 skew(왜도), kurt(첨도)를 사용하여 값을 return 받을수있다.