본문 바로가기

전체 글

(34)
Python으로 왜도 구하기(Pandas vs Scipy 차이) Python으로 왜도 첨도를 구하는 방법에 많이 사용하는 방법에는 2가지 정도가 있고 그 방법은 아래와 같다. Pandas skew 함수 사용하기 scipy 라이브러리의 skew 함수 사용하기 Pandas skew 함수와 Scipy skew 함수의 차이 위의 그림과 같이 데이터가 좌우 균형을 맞춘 종모양의 형상을 하고있을때 왜도의 값은 0으로 나온다.(정규 분포) 이는 왜도란 값 자체가 데이터가 어느 한쪽 방향으로 왼쪽으로 혹은 오른쪽으로 편향이 되어있는를 알기 위해 나타내는 값이기 때문이고 왜도의 값이 음수이면 왼쪽꼬리 긴 분포, 양수이면 오른쪽꼬리 긴 분포라고 얘기 한다. 또는 Positive, Negitive 라고 하는데 자세한 이유는 모르지만 왜도의 값이 양수이면 Positive, 음수이면 Neg..
자료의 형태(범주형[명목형, 순서형] 수치형[이산형, 연속형, 구간형, 비율]) 자료의 형태란 무엇 인가? 자료의 형태란 주어진 자료가 어떤 형태의 자료인지를 얘기하는 것으로 크게는 범주형 자료와 수치형 자료로 나뉘어 진다. 범주형 자료(질적 자료) 말 그대로 범주를 나타낼 수 있는 자료의 형태를 말하고 쉽게 설명하면 문자형 자료를 예시로 들 수 있다. 범주형 자료는 명목형 자료와 순서형 자료로 나뉘어 진다. 1)명목형 자료 범주형 자료가 명목형과 순서형으로 이루이 지는데 명목형 자료는 그 사물이나 객체의 고유한 성질을 가지고 있고 이러한 성질이 순서에 상관없이 순수하게 객체의 성질을 표시하기 위해 사용 하는 자료를 뜻 한다. ex) 이름, 도시, 색깔 등 2)순서형(서열) 자료 말 그대로 순서에 초점을 둔 자료로써 수능 등급, 선호도 조사, 직급 등을 예시로 들 수 있다. 순서형 ..
공분산과 상관관계, 상관계수 정리 공분산이란? 두개의 데이터의 선형관계를 알고싶을때 사용하는 공식. 예를들어 변수X는 나이를 뜻하고, Y는 연봉을 뜻 한다고 할때 이 두개의 관계를 알고 싶다고 가정해보자. 나이의 범위는 20~30, 연봉의 범위는 2500~5,000 까지라고 할때 나이가 많을수록 연봉이 높은지 아니면 관계가 없는지를 알고 싶을때 어떻게 구할수 있는가?? 나이 연봉 10대 2000 20대 3000 30대 4000 40대 5000 50대 6000 우선 분산을 다시 생각 해보자 분산이란 내가 가진 데이터가 얼마나 퍼져있는가를 구할때 사용되고 이 공식은 ∑(X-X의평균)²/n 이다. X-X의 평균을 오차라 정의 하고 오차 제곱의 합을 분자로 두고 이걸 X의 개수 만큼 나눈걸 우린 분산이라고 한다. 분자를 주목해보자 오차 제곱의 ..