본문 바로가기

분류 전체보기

(34)
통계학 - 1종 오류, 2종 오류에 대한 설명 통계 가설 검증 단계 이후 귀무가설을 채택할 것인지, 기각 할 것인지에 대해 결정을 하게 됩니다. 그렇다면 가설 검증의 결과가 무조건 맞다고 얘기를 할 수 있을까요? 그렇지 않습니다. 그렇기 때문에 1종 오류와 2종 오류가 존재합니다. 통계적 가설 검증 단계 결과는 1. 귀무가설 채택, 대립가설 기각 , 2. 귀무가설 기각, 대립가설 채택 이 두가지 결과가 존재합니다. 그렇기 때문에 이 가설 검증결과에 대한 결과는 아래와 같이 표현 할 수 있습니다. 가설 검정에서의 예측 귀무가설 채택, 대립가설 기각 귀무가설 기각, 대립가설 채택 실제 결과 귀무가설 채택, 대립가설 기각 참 1종 오류 = 알파(α) 오류 귀무가설 기각, 대립가설 채택 2종 오류 = 베타(β) 오류 참 귀무 가설로만 얘기를 한다면, 1) ..
t-test(t 검증)-통계 가설 검증에 대한 설명 t test ( t 검증 ) 이란? t - test란 통계학에서 가설 검증 방법 중 하나로 두 집단에 대한 평균에 대한 가설 검증 방법이다. 우리가 A대학과 B대학 학생들의 평균 키차이를 알 고 싶다고 가정해보자. 우리가 A,B 대학교 전체 학생의 키를 전부 알고 있다면 통계적 가설 검증을 할 필요는 없다 왜냐 하면 두 집단의 전체 키에 대한 정보가 모집단이고, 두 모집단의 평균의 차이가 우리가 알고 싶은 결과 이기 때문이다. 그런데 A,B 대학교 전체 학생의 키를 우리가 가진 데이터가 없어 각각 n명씩 랜덤으로 키를 측정하였더니 아래와 같은 그림으로 데이터가 뽑혔다고 해봅시다. 위 그림만을 본다면 뭔가 A대학이 평균이 키가 클것이라고 추측이 되지만, 가령 A대학은 위 데이터에서 평균이 185cm가 B대..
t-분포 표 보는 법(one-tail 과 two-tail의 차이) 및 예시 t 분포표란 가설검정중 하나인 t-test, t검정이라고 불리는 검정에서 참고할 분포표로 아래그림과 같이 생겼습니다. 분포표에서 X축 방향으로 일방향(One-tail)과 양방향(Two-tail)이 보이고, Y축 방향으로 1,2,3,4 등이 보이네요. 그리고 X,Y 사이에 각각의 값들이 보입니다. 제 나름대로 하나의 예시를 통해서 X 축 방향의 일방향과 양방향의 차이를 알아 보겠습니다. 우선 이름에서 알 수 있듣이 일방향 테스트는 단측 검증에 사용되고, 양방향은 양측 검증에 사용됩니다. 우리가 통계학에서 t-test를 하는 이유는 대립가설과 귀무가설의 채택 여부를 확인 하기 위해서 이고 이는 두 집단의 평균의 차이가 우연히(?) 일어 날 만한지 아닌지를 검정한다고 할 수 있습니다. 단측검증. 약효를 예로 ..
통계적 가설 - 귀무가설, 대립가설의 설명과 예제 통계학에서 사용되는 가설에 대하여 설명하는 글을 제 나름대로 해석한 내용을 설명 드리고자 합니다. 우선 통계적가설은 귀무가설과 대립가설 두가지로 나뉘는데 이를 쉽게 표현하자면 O,X 라고 생각합니다. 그렇다면 무엇에 대한 O,X 인지도 한번 알아봐야되는데요. 그전에 우리가 통계학에서 왜 가설을 세우는지 한번 생각 해보아야 합니다. 위 그림 처럼 우리는 모집단 정보 전체에 대해서 정보를 알기가 매우 어렵습니다. ex) 전 세계인 사람들의 평균 키, 연봉 등... 시간과 비용등 구하기가 까다롭기 그지 없습니다. 그렇기 때문에 표본 추출 방법으로 표본을 뽑아 표본으로 모집단 값을 추정 하는 것 입니다. 이를 통계적 추론 이라고 합니다. 그렇다면 표본을 뽑았을때 표본의 평균과 모집단의 평균이 일치 할 확률은 얼..
Python 으로 Precision, Recall, Accuracy, F1 Score 값 구하기 지난 분류모델 평가 기법 - Precision, Recall, Accuracy, F1 Score에 대한 값을 python 으로 구하는 방법을 포스팅한 내용입니다. Python 으로 분류 모델 평가별 값을 구하고자 할때 Sklearn의 metrics 내에 있는 함수들을 사용하면 각 값을 쉽게 구할 수 있습니다. 그래서 이번 포스팅은 각 값을 Sklearn 에 있는 함수를 사용해서 구해보고, 실제로 각 평가 값을 실제로 구해보는 두가지 방법으로 각각의 값을 구하고 동일하게 나오는지 확인 해보겠습니다. 데이터는 이전 데이터를 그대로 가져 와서 사용하였습니다. Train 데이터의 Age ~ Pclass 값을 가지고 Survived를 예측하는 모델을 학습시켰고 아래 그림은 test 데이터 Survived_Pred..
statsmodels logit vs sklearn logistic regression statsmodels 의 logit과 sklearn 의 logistic regression 은 분류 모델의 대표적인 python 라이브러리 입니다. 이 두가지 라이브러리의 간단한 예시와 차이를 포스팅 하고자 하는 글입니다. 우선 사용하는 Data는 kaggle의 titanic 을 사용할려고 하고 아래의 내용을 담고 있고, 성별을 의미하는행은 독립 변수가 명목형변수 이기때문에 이를 0,1로 수치형 변수로 변경되어 있습니다. 모델에서 사용 할 주요 컬럼별 의미 컬럴명 Survived Pclass Sex Age Sibsp 뜻 0 = dead 1 = Alive 좌석별 등급 1 - first class 2 - second class 3 - others 성별 0=여자 1=남자 나이 동행 인원수 Statsmodels..
분류모델 평가 기법 - Precision, Recall, Accuracy, F1 Score, ROC Curve 분류모델의 평가 기법설명에 대한 포스팅입니다. 선형 회귀 모델의 평가 기법에는 MSE, RMSE, MAPE 등 수치적인 평가 기법이 있는 반면 로지스틱 회귀 분석등 분류 모델의 평가 기법에는 Precision, Recall 등의 평가 방법이 있다. 각 기법 설명에 앞서 각 기법에 사용되는 지표들을 알아야 되는데 아래의 설명과 그림을 참고해서 알아보자. 이중 분류 로지스틱 회귀 분석을 예를 들어 우리의 결과 값 종속변수가 Positive와 Negative가 있을 때, 우리 모델이 예측 할수있는 결과 또한 Positive와 Negative이다. 이때 Positive와 Negative를 결정하는 구분선을 이전 포스팅에서 임계값(threshold)라고 설명 하였는데 이 값을 기준으로 이상인 값을 Positive..
로지스틱 회귀 분석이란?? - 승산과 로짓 설명 로지스틱 회귀분석 이진 분류에 사용되는 로지스틱 회귀 분석의 설명 및 회귀 분석에 사용 되는 개념 설명입니다. 로지스틱 회귀 분석이란? 우리가 예측하려고 하는 종속변수가 연속 확률 변수가 아닌 이산 변수 혹은 명목형 변수라면 우리는 종속변수를 선택을 해야된다 즉, 독립 변수 x가 주어 졌을때 족립변수 y가 A, B중 무엇인가? 를 예측 하기 위한 회귀 분석 모델이다. 왜 로지스틱 회귀 분석을 사용해야 되는가?? 우리가 이전에 배웠던 OLS 즉, 선형회귀 분석은 독립 변수 x가 주어 졌을때 종속변수를 연속형 변수로 예측 할수 있는 모델이기 때문에 A와 B중 하나를 선택 하기엔 적합하지 않다고 볼 수 있다. 혹은 종속 변수가 이산 변수 이고 두 변수가 1과 100 이라면 독립 변수 x가 주어 질때 x의 범위..
최대 우도 추정법 (Maximum Likelihood Estimation)에 대한 설명 최대 우도 추정법 최대 우도 추정법이란 우리가 가지 샘플(표본)으로 모집단의 평균과 분산을 추정하는 추정 방법이다. 예를 들어 전세계 사람들의 몸무게가 아래와 같이 정규 분포를 따른다고 가정해보자. 우리가 모집단의 평균 70, 표준편차가 20인것을 알고 있다면 표본을 옆집 사람의 몸무게가 70 이상인 확률은 0.5인것을 알 수가 있다. 이것이 정규 분포를 이용한 확률의 개념이다. 확률 : 우리가 모집단의 평균과 표준 편차를 알고 있고, 표본을 뽑았을때 이 표본이 특정값 사이에 있을 확률 그렇다면 반대로 우리가 모집단의 평균과 표준 편차를 모를때 모집단의 평균과 표준편차를 어떻게 추정 할 수있을까? 에 대한 해답이 바로 최대 우도 추정법이다. 즉, 최대 우도 추정법이란. 우리가 모집단의 평균과 표준편차를 ..
선형회귀 분석 - statsmodels ols, OLS sklearn LinearRegression 차이 및 예시 Statsmodels의 ols, OLS의 사용 예시와 sklearn LinearRegression의 차이를 다룬 포스팅입니다. statsmodels.api 의 OLS와 formula.ols statsmodels의 ols와 OLS 또한 선형 회귀모델의 최소제곱법을 활용한 모델이다. 아래부터는 각 모델의 예시 코드 및 과정입니다. import pandas as pd import statsmodels.api as sm from statsmodels.formula.api import ols from sklearn.linear_model import LinearRegression train = pd.read_csv('bmi-dataset/BMI_Dataset_train.csv') test = pd.read_csv..