본문 바로가기

전체 글

(34)
중앙값과 분위수 IQR을 이용한 이상치 판별 중앙값 이란? 중앙값이란 하나의 집단에서 작은 수부터 큰수를 순서대로 나열 하였을때 중앙에 위치되어 있는 수를 얘기한다. 집단 A : 1,2,3,4,5 집단 B : 3,4,5,6,7,8 이처럼 집단 A가 있고 집단 B가 있을때 A는 5개의 수가 있고 B에는 6개의 수가 있다. A의 중앙값은 중앙에 위치한 3이 중앙값이고 B의 중앙값은 가운데 위치해 있는 5와 6의 평균인 5.5가 된다. 우리가 주로 하나의 집단에서 대표되는 값으로 특정 집단의 평균을 많이 사용하는데 평균은 모집단에서 가지고 있는 데이터의 수와 최대값과 최소값의 영향을 많이 받기 때문에 이때 평균을 대신 하여서 중앙값을 사용하는 경우가 있다. EX) A 집단의 나이는 각각 25,30,35,40,70 일때 평균은 40세가 되는데 이는 70으..
유클리디안 맨해튼 거리 차이와 공식(Euclidean Distance, Manhattan distance) 유클리디안 거리 유클리디안 거리란 두점사이의 거리를 삼각법을 통해서 구하는 거리 측정 방법으로 초등학교때 배웠던 대각선 길이 구하는 법을 생각 하면 됩니다. 대각선의 길이 구하는 공식은 아래와 같습니다. 이때 C의 제곱이 A와 B의 제곱의 합과 같기 때문에 우리가 구하려는 유클리디안 거리는 C의 값에 루트를 씌운것과 같다. 그에 따른 유클리디안 거리 공식은 아래와 같다 ​ 위의 그림을 보고 점 E를 기준으로 B,G,F 의 유클리디안 거리를 구해보자 점 E(4, 2) - 점 B(2,2) = 각 좌표의 차이점(2,0) 공식 대입 : 2² + 0² = C² C = 루트4 = 2 점 E(4, 2) - 점 G(5,3) = 각 좌표의 차이점(-1,-1) 공식 대입 : -1² + -1² = C² C = 루트2 = 2..
확률(사전확률, 조건부 확률, 사후 확률, 베이즈 정리) + 확률의 연산 확률 이란? 확률이란 해당 조건에 부합하는 경우의 수를 전체의 경우의 수로 나누어준 것을 말한다. 가령 예를 들어 주사위를 던졌을때 홀 수가 나올 확률은 홀수인 수 1,3,5 3가지를 전체 1~6 전체 6으로 나누어 주사위를 던졌을때 홀 수가 나올 확률은 3/6이 된다. 표기는 P(A) = P(홀 수가 나올 확률) 조건부 확률 이란? 조건부 확률이란 하나의 사건이 일어났다는 가정 하에 다른 한 사건이 일어날 확률을 말하는 거며 쉽게 설명하면 주사위를 던졌을때 홀 수가 나왔는데 그 수가 1인 경우의 수를 말한다. 이처럼 확률에서는 한가지 사건만을 다루었는데 조건부 확률에서는 두가지를 다루게 된다. 조건부 확률은 이처럼 두 가지 사건에 대해서 표기를 해야되는데 표기 방법은 P(B|A) 로 나타내고 P(1인 ..