여러가지공부/머신러닝(Machine Learning)

자카드 거리/유사도란? 예제로 이해하기 (Jaccard, distance, similarity)

끄적끄적아무거나 2024. 3. 20. 08:31
반응형

 

목차

     

     

     

     

     

    자카드 거리/유사도란? (Jaccard, distance, similarity)

     

     

    고차원 공간에서 "가까운 이웃"을 찾는 것은, 예를 들어 인터넷 상의 다양한 상품, 영화, 또는 문서들 중에서 비슷한 것들을 찾아내는 과정을 말합니다. 여기서 "가까운"이라는 개념을 정확히 정의하기 위해 우리는 "거리"라는 개념을 사용합니다. 이 거리는 물리적인 거리가 아니라, 상품, 영화, 문서 등의 속성이 얼마나 유사한지를 수치화한 것입니다.

     

    이번에 우리가 살펴볼 거리의 종류는 "자카드 거리"입니다. 자카드 거리는 두 집합 사이의 유사성을 측정하는 방법 중 하나로, 자카드 유사도를 통해 계산됩니다.

     

    자카드 유사도
    자카드 유사도는 두 집합 간의 유사성을 측정하기 위한 지표입니다. 이는 두 집합이 공유하는 원소의 수를 두 집합의 전체 원소 수로 나눈 값으로 계산됩니다. 수학적으로는 다음과 같이 표현됩니다

     

     

     

    여기서 는 두 집합 가 공유하는 원소의 수, 는 두 집합의 합집합의 원소 수를 의미합니다. 예를 들어, 두 영화의 장르 집합을 비교할 때, 두 집합이 공유하는 장르의 수를 두 영화가 가진 전체 장르의 수로 나누어 그 비율을 구할 수 있습니다.

     

     

     

    자카드 거리

    자카드 거리는 자카드 유사도를 바탕으로 두 집합 사이의 거리를 측정합니다. 자카드 유사도가 1에 가까울수록 두 집합은 매우 유사하다고 볼 수 있으며, 0에 가까울수록 두 집합은 서로 다르다고 볼 수 있습니다. 자카드 거리는 다음과 같이 정의됩니다

     

     

     

    즉, 자카드 거리는 1에서 자카드 유사도를 뺀 값입니다. 이 값은 0에서 1 사이의 값을 가지며, 값이 작을수록 두 집합은 서로 더 가까운 것으로 간주됩니다.

     

    간단히 말해, 자카드 거리와 유사도는 두 집합 사이의 유사성을 수치화하여, 이를 통해 비슷한 항목들을 찾을 수 있는 방법을 제공합니다.

     

     

     

     

    자카드 거리 예제

     

     

     

    반응형