여러가지공부/통계적학습(Statistical Learning)

베이즈 이론(Bayes Theorem)이란? 수식, 사용목적, 쉽게 이해하기

끄적끄적아무거나 2023. 3. 22. 08:04
반응형

 

목차

     

     

     

    베이즈 이론(Bayes Theorem)이란?

     

    베이즈 이론을 이해하기 위해서는 조건부 확률에 대해 이해하여야 합니다.

     

    수식1

     

    수식1을 조건부 확률(Conditional Probability)라고 합니다. A라는 사건이 발생했을 때의 조건에서의 B라는 사건이 발생할 확률입니다. 

     

    수식2

     

    동일하게 B라는 사건이 발생했을 때의 조건에서 A라는 사건이 발생할 확률은 수식2와 같이 표현할 수 있습니다. 

     

    수식1과 수식2를 이용하면 아래와 같이 구할 수 있습니다. 

     

    수식3

     

    수식3을 이용해서 아래와 같은 수식을 만들어 낼 수 있습니다.

     

     

    수식4

     

    위 수식4가 이번 포스터의 목적인 베이즈(Bayes) 이론의 수식 입니다. 

     

    여기서 수식4에 대한 명명을 아래와 같이 하고 있습니다.

     

    • P(B|A) : 사후 확률(Posterior)
    • P(B) : 사전 확률(Prior)
    • P(A|B) : 가능도(Likelihood)
    • P(B) : 정규화 상수(Normalizing Constant)

     

     

     

     

    베이즈 이론(Bayes Theorem) 사용목적

     

    위와 같은 수식은 단순히 수식의 위치를 바꿔서 표현해줬을 뿐인데 어디에 사용되는 것일 까요? 최근에 많이 사용되는 환경이 머신러닝(Machine Learning)과 같은 곳에 이용 됩니다. 

     

    예를 들어 30개의 메일 데이터를 이용해서 스팸 메일을 학습시켜 보겠습니다. 

     

    여기의 예제에서 "pay"라는 글짜가 들어간 메일이 스팸일 확률에 대해 알아보겠습니다. 

     

     

    수식5

     

    수식5를 풀어내면 우리는  "pay"라는 글짜가 들어간 메일이 스팸일 확률을 알 수 있게 됩니다.

     

    물론 데이터 입력으로 사람이 30개 메일에서 SPAM 메일을 구분지어서 학습을 시켜줘야 합니다.

     

    P("pay"|SPAM) : 스팸 중에 pay라는 글이 들어간 메일의 수입니다.

    P(SPAM) : 30개 메일 중에 스팸 메일의 수 입니다.

    P("pay") : 30개 메일 중에 pay라는 문구가 들어간 메일의 수입니다.

     

    위 정보들은 사용자가 미리 확인할 수 있습니다.즉, 스팸 메일의 수와 pay 포함 메일의 정보로 "pay"라는 글짜가 들어간 메일이 스팸일 확률을 알 수 있게 됩니다

     

     

     

     

     

    베이즈 이론(Bayes Theorem) 수식 최종 정리

    수식4로 베이즈 이론 수식이 정리되기는 하지만 앞서 예제 처럼 글자 하나로 스팸을 구분 짓지 않고 여러개의 글자에 대해 스팸의 확률을 구할 때 수식을 정리해보겠습니다. 

     

    수식6

     

    수식6과 같이 여러가지 조건에 대해 정리가 됩니다.

     

    여기서 A1~An의 사건이 독립적일 경우 아래와 같이 수식을 정리할 수 있습니다.

     

     

    수식7

     

    반응형