반응형

여러가지공부 216

[Classification] Decision Tree 예제 설명 #2 (노드 순서 정하기)

목차 앞 시간 포스트(https://scribblinganything.tistory.com/709)에 이어서 이번에는 나이(Numeric value)에 대한 지니 불순도(Gini Impurity)를 계산해보겠습니다. Decision Tree : Gini Impurity 예제로 알아보기 나이의 지니 불순도(Gini Impurity)를 구하기 위해 나이순으로 테이블을 정렬합니다. 위 테이블과 같이 7에서 83으로 작은 수에서 큰수로 정렬합니다. 다음으로 위와 같이 나이들의 평균 값을 구해줍니다. 다음으로 그림1과 같이 평균을 경계로 수식1을 적용해서 지니 불순도(Gini Impurity)를 구합니다. "나이

[Classification] Decision Tree 예제 설명 #1 (Gini Impurity)

목차 Decision Tree란? Decision Tree란 위 그림과 같이 배고픔 Statement을 통해서 Decision을 진행합니다. 이때 Statement의 True와 False에 따라 다음 행동을 결정합니다. Statement True / False 위와 같이 Decision Tree의 결과가 카테고리로 결정 되면 Classification Tree라고 합니다. 결과가 밥을 몇 그릇 먹을지와 같은 숫자의 형태의 경우 이를 Regression Tree라고 합니다. Classification Tree Regression Tree 결과를 카테고리와 숫자를 섞은 형태의 Tree 사용도 상관 없습니다. 위와 같은 트리의 특징은 아래와 같습니다. 1. Numeric Threhold는 다르게 설정 가능 2..

가우시안 나이브 베이즈 이론이란? 스팸메일예제로 쉽게 이해하기(Gaussian Naive Bayes)

목차 가우시안 나이브 베이즈 이론이란(Gaussian Naive Bayes)? 앞서 포스트에서 Multinomial Naive Bayes Claasifier에 대해 배워 보았습니다(https://scribblinganything.tistory.com/707). 이번 가우시안 나이브 베이즈 이론은 Multinomial Naive Bayes Claasifier의 연장선상에서 배우는 개념이라 혹시 앞에 포스트를 보지 않으셨다면 보시고 오시길 추천 드립니다. 수식1의 Naive Bayes 이론을 사용해서 수식2를 전개 하였습니다. 수식2를 통해 우도(Likelihood)의 확률 값를 구할 수 있었습니다. 기존에 확률 값 p를 스팸 메일의 n 개 중에 "A"라는 문구가 들어간 개수 m을 찾아서 구하는 방식이었다면..

Multinomial Naive Bayes Classifier 수식 및 스팸 메일 예제로 이해하기(Laplace estimator)

목차 Bayes’ Theorem 베에즈 이론에 대해 알아보겠습니다. P(A|B) : Posterior P(A) : Prior P(B|A) : Likelihood P(B) : Normalizing Constant Bayes 이론은 사전 확률(prior probability)과 사후 확률(posterior probability)을 사용하여 어떤 사건이 발생할 확률을 계산합니다. 사전 확률은 사건이 발생하기 전에 이미 알고 있는 정보를 바탕으로 계산되며, 사후 확률은 사건이 발생한 후 추가 정보를 토대로 계산됩니다. 간단히 말하자면 training data set으로 P(A|B)와 P(B)를 알아내고 P(B|A)를 구하는 것입니다. 구하고자 하는 값은 위와 같습니다. 해당 값이 무엇인지는 아래 예제를 한번 해..

[로지스틱회귀]로짓, 우도, 오즈비 란?(Logit, Log odds, Likelihood function, Logistic Regression)

목차 Logistic Regression logit(로지스틱회귀 로짓)이란? 앞서 포스트에서 로지스틱 회귀에 대해 간단히 알아보았습니다([머신러닝]로지스틱회귀란?(Logistic Regression, 시그모이드 함수) (tistory.com)). 이번에는 로지스틱 회귀의 다양한 특성에 대해 알아보겠습니다. 로지스틱 회귀분석(Logistic Regression)은 분류(Classification) 모델 중 하나로, 기존에 Linear Regression으로 모델을 예측하기 힘든 Category로 분류해야하는 경우 사용합니다. 로지스틱 회귀는 시그모이드 함수 형태를 사용해서 수식1과 같이 나옵니다. 로지스틱 회귀분석에서 "logit"이란, 로지스틱 회귀모델에서 선형 예측식을 구성하는 항으로, 로그 오즈(lo..

SGD, BGD, mini BGD란? 차이를 예제로 쉽게 이해하기(Stochastic Gradient Descent, Batch, Epoch, Iteration)

목차 SGD란?(Stochastic Gradient Descent) SGD(Stochastic Gradient Descent)는 머신 러닝에서 가장 많이 사용되는 최적화 알고리즘 중 하나입니다. 이 알고리즘은 모델의 파라미터(Parameter)를 조정하여 손실 함수 값이 가장 적게나오는 지점을 찾아서 그때의 파라미터를 사용해서 모델을 만들어 냅니다. SGD의 특징은 전체 데이터셋을 한 번에 학습하는 대신 데이터셋을 무작위로 섞은 후 일정 크기 데이터 포인트에 대해 모델을 학습시킵니다. 이렇게 하면 학습이 더욱 빠르게 수렴하고, 더욱 미세한 변화도 파악할 수 있습니다. 여기서 중요한 용어 3가지가 나옵니다. Batch-Size(배치 사이즈) 위 그림에서 녹색에 해당하는 부분입니다. SGD에서 데이터를 처리..

로지스틱 회기 Gradient 수식 풀이(Logistic Regression, Equation)

목차 로지스틱 회기 Gradient 수식 풀이: 로지스틱 Logistic Regression은 위와 같이 시그모이드(Sigmoid) 함수 형태를 따릅니다. 수식은 다음과 같습니다. 입력 값이 많아지면 아래 수식2와 같이 표현 될 수 있습니다. p(x)는 확률 값으로 0~1 사이로 표현 될 수 있습니다. 로지스틱 회기 Gradient 수식 풀이: Cost Function & Gradient 확률값의 Cost Function은 CE(Cross Entropy)로 표현 합니다. 엔트로피의 개념은 아래 링크를 참조하시길 바랍니다(https://scribblinganything.tistory.com/700). 크로스 엔트로피는 기존의 엔트로피에 자신의 예측치를 넣은 값으로 예측치와 실제 값이 맞을 확률이 높아 질수..

선형회기 Gradient 수식 풀이(편미분, equation, Linear Regression)

목차 이번 포스트에서는 선형회기의 Gradient 구하는 방법을 수식으로 전개해보겠습니다. 선형회기 Gradient 수식 풀이: 선형회기식 선형 회기란 위 그래프와 같이 데이터가 주어져있을 때 데이터 셋을 대표하는 모델링을 하는 것입니다. 위와 같은 모델은 수식1과 같이 간단한 1차원 수식으로 전개 됩니다. 이때 베타 파라미터(parameter) 값을 찾는 것이 선형회기 이론입니다. 위 수식은 하나의 입력에 대한 출력이고 다차원으로 가면 아래와 같이 수식을 쓸 수 있습니다. 위와 같은 수식을 Linear Regression Hypothesis라고 합니다. 선형회기 Gradient 수식 풀이: Cost Function & Gradient Loss 함수 또는 Cost 함수는 수식2의 예측 값의 오차가 얼마나..

[머신러닝]민감도, 특이도, F1-Score란?(Sensitivity, Specificity)

목차 민감도, 특이도란?(Sensitivity, Specificity) 민감도(sensitivity)는 모델이 양성 클래스(positive class)를 정확하게 예측한 비율을 의미하며, 특이도(specificity)는 모델이 음성 클래스(negative class)를 정확하게 예측한 비율을 의미합니다. True Positive (TP): 100개 (실제 스팸인데 스팸으로 예측한 경우) False Positive (FP): 30개 (실제 정상 메일인데 스팸으로 예측한 경우) True Negative (TN): 850개 (실제 정상 메일인데 정상 메일로 예측한 경우) False Negative (FN): 20개 (실제 스팸인데 정상 메일로 예측한 경우) Positive = TP + FN : 120개 (실제..

Classification 모델 성능 검증: Accuracy, Precision/Recall, ROC-AUC(예제 실습, 파이썬)

목차 Classification 모델 성능 검증: Accuracy 머신러닝에서 Accuracy, Precision/Recall, ROC-AUC는 분류 문제의 성능을 평가하는 지표들입니다. 이러한 지표들은 모델의 예측 결과를 실제값과 비교하여 얼마나 잘 예측하는지 측정합니다. Accuracy (정확도)란 전체 데이터 중에서 모델이 올바르게 분류한 데이터의 비율입니다. 정확도는 가장 직관적인 지표이지만, 클래스 간 데이터의 분포가 불균형할 경우 잘못된 성능 평가를 할 수 있습니다. 간단히 말해 실제 데이터 수에서 바르게 예측한 비율입니다. 정확도 = (올바르게 분류된 데이터 수) / (전체 데이터 수) Accuracy 예제 Accuracy를 이해하기 위한 간단한 예제를 드리겠습니다. 이진 분류 문제를 가정해..

반응형