여러가지공부/통계적학습(Statistical Learning)

[로지스틱회귀]로짓, 우도, 오즈비 란?(Logit, Log odds, Likelihood function, Logistic Regression)

끄적끄적아무거나 2023. 4. 6. 09:34
반응형

 

목차

     

     

     

     

     

    Logistic Regression logit(로지스틱회귀 로짓)이란?

     

    앞서 포스트에서 로지스틱 회귀에 대해 간단히 알아보았습니다([머신러닝]로지스틱회귀란?(Logistic Regression, 시그모이드 함수) (tistory.com)). 

     

    이번에는 로지스틱 회귀의 다양한 특성에 대해 알아보겠습니다. 

     

    로지스틱 회귀분석(Logistic Regression)은 분류(Classification) 모델 중 하나로, 기존에 Linear Regression으로 모델을 예측하기 힘든 Category로 분류해야하는 경우 사용합니다. 

     

    수식1
    수식2

     

     

    로지스틱 회귀는 시그모이드 함수 형태를 사용해서 수식1과 같이 나옵니다. 

     

     

    로지스틱 회귀분석에서 "logit"이란, 로지스틱 회귀모델에서 선형 예측식을 구성하는 항으로, 로그 오즈(log odds)값을 의미합니다. log odds는 어떤 사건이 발생할 확률(p)과 발생하지 않을 확률(1-p)의 비율을 로그로 취한 값으로, 수식2를 적용해서 전개하면 아래와 같이 나타낼 수 있습니다.

     

     

    수식3

     

     

    여기서 p는 0부터 1까지의 값을 가지는 확률값입니다. 로그 오즈는 일반적으로 로지스틱 회귀분석에서 종속변수가 속할 범주(Category)의 로그 오즈값을 예측하기 위해 사용됩니다.

     

    즉, 로짓을 사용해서 선형으로 파라미터를 구하고 어떠한 입력에 대한 출력을 target이 될 확률로 구할 수있습니다.

     

     

     

     

     

     

     

     

     

    우도 함수란(Likelihood function)?

     

    우도(Likelihood)에 대해 먼저 설명을 드리겠습니다. 

    확률값으로 위와 같이 표기 됩니다. B가 발생했을 때 A가 발생할 확률입니다. 예를 들어 B를 술을 하루에 몇 병 마시는지에 대한 확률 값이라 보고 A는 암에 걸릴 확률이라고 하겠습니다. B에 따라 A값이 변하게 됩니다. 이러한 확률 구조를 우도라고 합니다.

     

    로지스틱 회귀분석에서 우도함수(likelihood function)은 주어진 독립변수와 종속변수에 대한 로그 우도 값을 의미합니다. 로그 우도 값은 모델이 주어진 데이터를 잘 설명할 수 있는 정도를 나타내며, 모델의 성능을 평가하고 개선하는데 사용됩니다.

     

    예를 들어, 로지스틱 회귀분석을 사용하여 어떤 환자가 암에 걸릴 확률을 예측한다고 가정해보겠습니다. 이때, 독립변수로는 환자의 나이, 성별, 가족력 등의 정보를 사용할 수 있습니다. 로지스틱 회귀분석을 통해 각 독립변수들의 가중치를 학습하고, 이를 토대로 암에 걸릴 확률을 예측하는데 사용할 수 있는 모델을 만들 수 있습니다.

     

     

    이때, 우도함수(likelihood function)는 주어진 환자 정보와 실제 암 발병 여부에 대한 정보를 이용하여 모델의 성능을 평가하는데 사용됩니다. 우도함수(likelihood function)는 아래와 같이 정의됩니다.

     

     

    수식4

     

    여기서 베타는 로지스틱 회귀모델의 파라미터(Parameters)를 나타내며, yi는 i번째 환자의 암 발병 여부(1: 발병, 0: 미발병)를 나타냅니다. xi는 i번째 환자의 독립변수 값들을 포함한 벡터이며, p(xi)는 로지스틱 회귀모델에서 i번째 환자가 암에 걸릴 확률을 나타냅니다.

     

    따라서 likelihood function은 주어진 데이터에서 발생할 가능성이 가장 높은 모델의 파라미터 값을 찾는 것이 목표입니다. 이를 위해 로그 우도값을 최대화하는 최적의 파라미터 값을 찾는 과정을 "최대 우도 추정법(Maximum Likelihood Estimation)"이라고 합니다. 수식4를 최대화 하는 파라미터를 찾는 것입니다.

     

     

     

     

     

     

     

     

    Logistic Regression 예제 실습

    아래 예제는 통장에 얼마가 있는 지에 따른 채무불이행이 발생할 확률에 대한 분석입니다. 채무 불이행이 발생 한다 안한다 2가지로 Category로 분류 될 수 있는 경우입니다. 

     

     

    위 테이블에서 누군가 수식4를 사용해서 파라미터 값을 구했습니다. 통장 잔고(Balance)의 p-value가 낮고 z-statistic 값이 높다는 의미는 B1=0 이라는 귀무 가설이 틀렸다는 것이 증명되므로 통장 잔고와 채무 불이행(Default) 사이에 상관 관계가 있다는 의미 입니다. 

     

     

    우도 수식을 통해 채무 불이행이 될 확률을 잔고가 1000불 있을때의 경우로 구하면 아래와 같습니다. 

     

     

    약 0.5%로 채무 불이행이 발생합니다. 

     

     

    반응형