반응형

여러가지공부/통계적학습(Statistical Learning) 14

가우시안 나이브 베이즈 이론이란? 스팸메일예제로 쉽게 이해하기(Gaussian Naive Bayes)

목차 가우시안 나이브 베이즈 이론이란(Gaussian Naive Bayes)? 앞서 포스트에서 Multinomial Naive Bayes Claasifier에 대해 배워 보았습니다(https://scribblinganything.tistory.com/707). 이번 가우시안 나이브 베이즈 이론은 Multinomial Naive Bayes Claasifier의 연장선상에서 배우는 개념이라 혹시 앞에 포스트를 보지 않으셨다면 보시고 오시길 추천 드립니다. 수식1의 Naive Bayes 이론을 사용해서 수식2를 전개 하였습니다. 수식2를 통해 우도(Likelihood)의 확률 값를 구할 수 있었습니다. 기존에 확률 값 p를 스팸 메일의 n 개 중에 "A"라는 문구가 들어간 개수 m을 찾아서 구하는 방식이었다면..

Multinomial Naive Bayes Classifier 수식 및 스팸 메일 예제로 이해하기(Laplace estimator)

목차 Bayes’ Theorem 베에즈 이론에 대해 알아보겠습니다. P(A|B) : Posterior P(A) : Prior P(B|A) : Likelihood P(B) : Normalizing Constant Bayes 이론은 사전 확률(prior probability)과 사후 확률(posterior probability)을 사용하여 어떤 사건이 발생할 확률을 계산합니다. 사전 확률은 사건이 발생하기 전에 이미 알고 있는 정보를 바탕으로 계산되며, 사후 확률은 사건이 발생한 후 추가 정보를 토대로 계산됩니다. 간단히 말하자면 training data set으로 P(A|B)와 P(B)를 알아내고 P(B|A)를 구하는 것입니다. 구하고자 하는 값은 위와 같습니다. 해당 값이 무엇인지는 아래 예제를 한번 해..

[로지스틱회귀]로짓, 우도, 오즈비 란?(Logit, Log odds, Likelihood function, Logistic Regression)

목차 Logistic Regression logit(로지스틱회귀 로짓)이란? 앞서 포스트에서 로지스틱 회귀에 대해 간단히 알아보았습니다([머신러닝]로지스틱회귀란?(Logistic Regression, 시그모이드 함수) (tistory.com)). 이번에는 로지스틱 회귀의 다양한 특성에 대해 알아보겠습니다. 로지스틱 회귀분석(Logistic Regression)은 분류(Classification) 모델 중 하나로, 기존에 Linear Regression으로 모델을 예측하기 힘든 Category로 분류해야하는 경우 사용합니다. 로지스틱 회귀는 시그모이드 함수 형태를 사용해서 수식1과 같이 나옵니다. 로지스틱 회귀분석에서 "logit"이란, 로지스틱 회귀모델에서 선형 예측식을 구성하는 항으로, 로그 오즈(lo..

[Python] Multi Linear Regression 실습 3차원 모델 그리기 (Boston House Price 주택 가격 추정, 다수 선형 회기)

목차 파이썬 Multi Linear Regression 실습 #1 보스톤 주택 가격에 관련된 값들을 서버에서 받아서 dataframe으로 넣어 줍니다. 예제 코드>> import pandas as pd df = pd.read_csv('https://raw.githubusercontent.com/rasbt/python-machine-learning-book-3rd-edition/master/ch10/housing.data.txt', header=None, sep='\s+') df.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] print(df.hea..

선형회기 R제곱 통계값이란?(Linear Regression, R2, R^2, R Square)

목차 선형회기 R제곱 통계값이란?(Linear Regression, R2, R^2) R제곱 통계값은 선형 회기 모델이 종속 변수에 대한 모델링을 얼마나 잘 표현해주었는지를 알려주는 적합도입니다. 결정계수라고 불리는 R제곱 값은 전체 변동량 중에서 선형 회기 모델에 의해 표현 되어지는 비율을 얘기합니다. 수식으로 표현하면 아래와 같습니다. 수식1에서 RSS는 Sum of Squared Residual 로 SSR로 표현하기도 합니다. RSS는 실제 데이터 값에서 추정값을 빼고 제곱을 취한 값으로 이를 Residual이라고 합니다. 수식1에서 TSS는 Total Sum of Square로 데이터 값에서 평균을 빼고 제곱을 취한 값입니다. TSS의 의미는 선형회기 모델이 만들어지기 전에 데이터의 예측 예러를 가..

통계 가설검정, 귀무/대립 가설, 유의수준, p-value(Hypothesis Test, Null, Alternative)이란? 선형회기(Linear Regression) 수식 적용

목차 통계 가설 검정, 귀무/대립 가설, 유의수준, p-value란? 가설 검증/검정(Hypothesis Tests)는 말 그대로 가설을 검증하는 이론입니다. 다만 느낌적으로 풀어내는 것이 아닌 수식적으로 풀어내는 것입니다. 예를 들어 동일한 크기의 소리를 발생하는 스피커를 제작 하는 회사가 있다고 가정하겠습니다. 해당 소리 크기는 10 pascal에 맞춰서 나온다고 합니다. 이중에서 샘플 n개를 뽑아서 실제 샘플의 스피커들이 10 pascal에 맞추는지 확인하는 것이 가설 검증이라고 합니다. 검증을 위해 2가지 가설을 세울 수 있습니다. 귀무가설(Null Hypothesis) : 반대로 기각하려는 가설 H0 대립가설(Alternative Hypothesis) : 증명하려는 가설 H1 가설 검증은 일반적..

통계 신뢰 구간(Confidence Interval)이란? 선형회기 적용 수식 풀이

목차 통계 신뢰 구간(Confidence Interval)이란? 선형회기에서 신뢰구간(Confidence Interval)이 어떻게 동작하는지 알아보기 전에 통계학에서 신뢰 구간을 어떻게 정의하고 수식으로 전개하는지에 대해 알아보겠습니다. 그림1과 같이 모집단(Population)의 평균과 분산이 노란색 박스와 같이 이루어 져있을 경우 모집단에서 일부 샘플 n개를 가져와서 표본집단(Sample)을 만들 경우 해당 표본 집단은 정규분포의 확률 구조를 따른다고 앞서 배웠습니다. 이때 정규분포(Normal Distribution)의 특성을 알려주는 평균과 분산의 값은 그림1의 파란색 박스와 같습니다. 파란색 원의 표준 분포는 수식1과 같이 표기 해줍니다. 신뢰 구간을 얘기 하기 전에 표준 정균 분포(Stand..

선형회기와 표준 오차(Linear Regression, Standard Error)

목차 표준 오차(Standard Error)란? 표준 오차를 이해하기 위해서는 기본적인 모집단(Population)과 표본 집단(Sample)에 대한 평균, 분산, 표준 분산에 대해 이해가 필요 합니다. 해당 카테고리에 내용들을 정리해 놓았으니 참조하시길 바랍니다. 그림과 같이 모집단에서 중복 순열로 샘플들을 뽑아내면 각 샘플에서의 평균을 구할 수 있습니다. 모집단의 평균기호에 바 기호를 붙여서 샘플의 평균 기호를 표기하였습니다. 여기서 샘플들의 평균을 모아서 아래와 같이 평균을 내면 모집단의 평균이 됩니다. 그리고 표본 집단의 평균으로 분선을 구하였더니 수식2와 같이 모집단의 분산에 n으로 나눠준 값이 나왔습니다. 앞서 포스터(https://scribblinganything.tistory.com/687..

t 분포란? 자유도 n-1 사용 이유 쉽게 풀이(t-distribution)

목차 t 분포(t-distribution)란? 앞서 포스트에서 표본(Sample) 집단에서의 표본 평균, 표본 분산을 구하는 방법에 대해 알아보았습니다. 모(Population) 집단에서 표본 집단을 가지고 표준 정규 분포(Standard Normal Distribution)으로 만들면 아래와 같이 나옵니다. 수식1과 같이 X를 표준화하면 표준 정규 분포를 얻을 수 있습니다. 하지만 여기서 문제는 모집단의 표준편차(σ)를 구하기가 힘들다는 것입니다. 표본을 사용하는 이유가 모집단으로 데이터를 다 처리하기 힘들기 때문에 표본을 만든 것이기 때문에 수식1과 같이 모집단의 표준편차를 사용해서 정립하는 것이 현실에 맞지 않기 때문입니다. 그래서 모집단의 표준편차가 아닌 표본 집단의 표준편차(S)를 사용해서 표준..

정규 분포란? 표준화(X, Z값 변환) 쉽게 정리하기(수식, 테이블, Normal Distribution, Standard Distribution)

목차 정규분포란(Normal Distribution)? 그림1과 같이 벨 모양과 같이 생긴 형태의 그래프를 정규분포 그래프라고 합니다. 정규분포는 평균값(μ)과 분산(σ^2)에 의해 그래프 특성이 결정 됩니다. 평균에 의해 벨의 중심점이 결정됩니다. 그리고 분산 값에 의해 퍼짐 정도가 결정 됩니다. 그래프의 수식은 위 수식1과 같이 결정 됩니다. 또는 간단하게 아래 수식2와 같이 표현합니다. 평균(Mean)과 분산(Variance)만 있으면 그래프를 그릴 수 있기 때문입니다. 정규분포를 사용하는 이유와 언제 사용 하나? 사실 고등학교때는 무턱대고 위 수식으로 문제를 푸는 것에 집중했지만 사회를 나와서 이과를 다니다 보니 산업의 많은 분야에서 정규분포를 사용함을 알았습니다. 제가 생각하는 정규분포의 이용은..

반응형