반응형

여러가지공부 216

[LSH]Min Hashing이란? (Locality Sensitive Hashing#2)

Min Hashing이란? Min-Hashing은 대규모 집합을 짧은 서명(signature)으로 변환하는 기법이며, 이 과정에서 원래 집합 간의 유사성을 보존하는 것을 목표로 합니다. 이 방법은 특히 대용량 데이터에서 유사한 항목을 효율적으로 비교하기 위해 사용됩니다. 1. 0/1 벡터 인코딩 전체 집합(universal set)의 각 원소에 대해, 해당 원소가 주어진 집합에 포함되면 1로, 그렇지 않으면 0으로 표시하는 벡터로 집합을 표현합니다. >> 예를 들어, 전체 집합이 {A, B, C, D}이고, 주어진 집합이 {A, C}라면, 이 집합은 [1, 0, 1, 0]으로 표현됩니다. 2. 집합 연산의 비트 연산으로의 해석 집합 교집합: 두 집합의 교집합은 두 집합에 공통으로 포함된 원소들의 집합입니..

자카드 거리/유사도란? 예제로 이해하기 (Jaccard, distance, similarity)

목차 자카드 거리/유사도란? (Jaccard, distance, similarity) 고차원 공간에서 "가까운 이웃"을 찾는 것은, 예를 들어 인터넷 상의 다양한 상품, 영화, 또는 문서들 중에서 비슷한 것들을 찾아내는 과정을 말합니다. 여기서 "가까운"이라는 개념을 정확히 정의하기 위해 우리는 "거리"라는 개념을 사용합니다. 이 거리는 물리적인 거리가 아니라, 상품, 영화, 문서 등의 속성이 얼마나 유사한지를 수치화한 것입니다. 이번에 우리가 살펴볼 거리의 종류는 "자카드 거리"입니다. 자카드 거리는 두 집합 사이의 유사성을 측정하는 방법 중 하나로, 자카드 유사도를 통해 계산됩니다. 자카드 유사도 자카드 유사도는 두 집합 간의 유사성을 측정하기 위한 지표입니다. 이는 두 집합이 공유하는 원소의 수를 ..

[LSH]K Shingling(K gram)이란?(Locality Sensitive Hashing#1)

목차 Shingling이란? "Shingling"이라는 용어는 문서(Document) 를 집합(Set)으로 변환하는 과정을 말합니다. 이 과정은 문서의 내용을 분석하고, 비교하고, 유사성(Similarity)을 측정하는 데 유용한 방법입니다. 여기서 '집합'이라는 것은 문서 내의 모든 유니크한 요소(예: 단어, 문자열, 토큰 등)의 모임을 의미합니다. Shingling 과정 문서 정의: 우리가 비교하고 싶은 텍스트 또는 문서가 무엇인지 정의합니다. 토큰화(Tokenization): 문서를 더 작은 단위(토큰)로 나눕니다. 이 토큰들은 문자, 단어, 문장 등이 될 수 있습니다. Shingling: 이제 토큰화된 문서에서 연속적인 토큰의 시퀀스(쉬잉글)를 생성합니다. 각 쉬잉글은 k개의 연속적인 토큰으로 구..

시간 복잡도 O(n^2)이란?(Time Complexity)

목차 시간 복잡도 O(n^2)이란?(Time Complexity) O(n^2)이란? O(n²)는 입력 크기에 따라 알고리즘 실행 시간이 제곱으로 증가한다는 것을 의미합니다. 예를 들어, 입력 크기가 두 배가 되면 실행 시간은 네 배로 증가합니다. 이런 알고리즘은 큰 입력에 대해 느려질 수 있으며, 더 효율적인 알고리즘에 비해 성능이 떨어질 수 있습니다. O(n^2) 계산 방법 O(n²) 시간 복잡도를 nC2와 관련하여 설명하자면, nC2는 n개의 항목 중에서 2개를 고르는 조합의 수를 나타냅니다. 이는 (n*(n-1))/2로 계산되며, 이 식에서 가장 큰 영향을 미치는 항은 n²입니다. 따라서, nC2의 성장률이 n²에 비례한다고 볼 수 있습니다. 배열에서 모든 쌍의 요소를 비교하여 중복을 확인하는 알고..

가지급금이란? 영수증 없이 비용처리된 경우

목차 가지급금이란? "가지급금"은 회사의 재정 관리에서 중요한 개념입니다. 간단히 말해서, 가지급금이란 회사에서 현금이나 예금을 인출했지만, 그 사용 목적에 대한 증빙서류(영수증 등)가 없는 경우에 회계상 발생하는 금액을 말합니다. 이는 재무상태표에서 주로 단기 대여금으로 분류됩니다. 업무상 지출: 직원이 회사를 대신해서 비용을 지출했으나 아직 영수증을 제출하지 않은 경우. 이런 경우는 일반적으로 문제가 되지 않으며, 영수증 제출 후 정산이 이루어집니다. 개인적 사용: 대표이사나 회사와 특수관계에 있는 사람들이 개인적인 목적으로 회사 자금을 사용한 경우. 이러한 가지급금은 회사의 순이익에 영향을 미치고, 세금 및 법적 문제를 야기할 수 있습니다. 한국의 세법에서는 가지급금에 대해 엄격한 규정을 두고 있습..

기업 고정 자산 비율이란? 이상적인 비율(설비 투자, 중소기업, 중견기업, 고정 장기적합률)

목차 기업 고정 자산 비율이란? 고정 비율은 회사의 재무 건전성과 효율적인 자산 운용을 측정하는 중요한 지표 중 하나입니다. 이 비율은 고정자산과 자기자본의 관계를 통해 산출됩니다. 공식은 다음과 같습니다. 고정비율(%) = (고정자산/자기자본) × 100 여기서 고정자산은 장기간 사용되는 자산을 말하며, 예를 들면 건물, 기계, 장비 등이 해당됩니다. 자기자본은 회사가 소유한 자본으로, 주식자본과 유보이익 등을 포함합니다. 고정 비율의 중요성 재무 건정성: 고정 비율이 높다는 것은 회사가 자기자본보다 많은 고정자산을 보유하고 있음을 의미합니다. 이는 회사가 외부 부채에 의존하지 않고 자체 자본으로 자산을 충당하고 있음을 나타내는 건전한 신호입니다. 유동성 위험: 반대로, 고정 비율이 지나치게 높으면 회..

전 회사의 영업 비밀 누출 관련 대응법(법률, 조치 사항,"부정경쟁방지 및 영업비밀보호에 관한 법률"의 제18조 제2항)

목차 전 회사의 영업 비밀 누출 관련 대응법 전 직장의 자료를 이용하여 영업하는 행위는 여러 법적 문제를 야기할 수 있습니다. 이러한 상황에서 가장 중요한 개념은 '영업비밀'입니다. 영업비밀은 기업이 경제적 가치를 지닌 기술적이거나 경영상의 정보를 비밀로 관리하는 것을 말하며, 이러한 영업비밀은 비밀성, 경제적 유용성, 비밀관리성의 세 가지 요건을 충족해야 법적 보호를 받을 수 있습니다. 비밀성(Confidentiality): 영업비밀은 대중에게 공개되지 않은 상태여야 하며, 제한된 범위의 사람들만 알고 있어야 합니다. 이는 해당 정보가 비밀로 유지되어야 한다는 것을 의미합니다. 경제적 유용성(Economic Value): 이 정보가 경쟁 우위를 제공하거나, 그 정보를 얻기 위해 상당한 노력이나 비용이 ..

중소기업이란? 기준 금액, 범위, 소기업, 소상공인 구분법

목차 중소기업이란? 중소기업기본법 시행령(일부개정 2021. 6. 8. [대통령령 제31758호, 시행 2021. 6. 9.] 중소벤처기업부)에 정의된 중소기업이란 아래와 같습니다. 제3조(중소기업의 범위) ① 「중소기업기본법」(이하 "법"이라 한다) 제2조제1항제1호에 따른 중소기업은 다음 각 호의 요건을 모두 갖춘 기업으로 한다. 1. 다음 각 목의 요건을 모두 갖춘 기업일 것 가. 해당 기업이 영위하는 주된 업종과 해당 기업의 평균매출액 또는 연간매출액(이하 "평균매출액등"이라 한다)이 별표 1의 기준에 맞을 것 나. 자산총액이 5천억원 미만일 것 2. 소유와 경영의 실질적인 독립성이 다음 각 목의 어느 하나에 해당하지 아니하는 기업일 것 가. 삭제 나. 자산총액이 5천억원 이상인 법인(외국법인을 ..

여러가지공부 2023.09.17

[Neural Networks] NN의 Backpropagation이란? 예제와 함께 설명#1

목차 [Neural Networks] NN의 Backpropagation이란? 앞서 포스트에서 신경망의 구성과 Forward Propagation이 어떻게 동작하는지에 대해 알아보았습니다. 백프로파게이션(backpropagation)은 인공신경망(artificial neural network)에서 가중치(weight)와 편향(bias)을 조정하기 위한 알고리즘입니다. 이 알고리즘은 입력 데이터를 통해 예측을 수행한 후, 실제 출력과의 오차를 역전파하여 각 가중치와 편향의 영향력을 계산합니다. 그런 다음 이 오차에 따라 가중치와 편향을 조정하여 모델의 예측을 개선합니다. 그림1과 같은 형태가 NN입니다. 여러층이 모여있으면 Multi layer NN이라고 합니다. 앞서 Backpropagation이란 가중..

[Neural Networks] NN이란? 구성 및 forward propagation 동작 방식

목차 NN(Neural Networks)이란? 신경망은 "뉴런"이라고 불리는 작은 단위로 구성되어 있습니다. 각 뉴런은 입력을 받아들이고 이를 처리한 후 출력을 생성합니다. 이 출력은 다른 뉴런에게 전달됩니다. 이러한 뉴런들은 여러 층(layer)으로 구성되어 있으며, 입력층(input layer), 은닉층(hidden layer), 출력층(output layer)으로 구분됩니다. 신경망의 핵심은 가중치(weights)라고 불리는 매개변수입니다. 각 뉴런은 입력과 가중치를 곱한 값을 합산한 후, 비선형 함수인 활성화 함수(activation function)를 통과시켜 결과를 출력합니다. 이렇게 입력과 가중치의 조합을 조정하면서 신경망은 데이터의 복잡한 패턴을 학습할 수 있습니다. 학습 과정에서, 신경망..

반응형