반응형

여러가지공부 216

엔트로피(Entropy)란? 파이썬 엔트로피 예제 실습

목차 엔트로피(Entropy)란? 엔트로피는 머신러닝에서 데이터셋의 불확실성을 나타내는 척도입니다. 엔트로피를 계산하기 위해서는 데이터셋에서 각 클래스가 발생할 확률을 알아야 합니다. 수식으로 표현하면 다음과 같습니다. 여기서 H(X)는 데이터셋 X의 엔트로피를 나타내며, p(x)는 데이터셋 X에서 클래스 x가 발생할 확률을 나타냅니다. 이 식은 다음과 같이 해석할 수 있습니다. 데이터셋에서 각 클래스가 발생할 확률을 곱한 후, 이를 로그로 변환하고 음수로 바꾼 값들을 모두 더한 것입니다. 수식1에서 log2를 사용하는 이유는 확률의 특성과 관련이 있습니다. 우선, 확률은 항상 0과 1 사이의 값을 가집니다. 하지만, 이러한 확률을 곱하면 값이 매우 작아질 수 있습니다. 예를 들어, 0.001과 0.00..

[머신러닝] k-fold cross validation이란? 파이썬 예제 실습

목차 [머신러닝] k-fold cross validation이란? k-fold 교차 검증(k-fold cross validation)은 머신러닝에서 모델의 성능을 측정하고 검증하는 기술 중 하나입니다. 이 방법은 데이터 세트를 k개의 부분집합으로 분할하고, 이 중 하나를 검증 데이터(validation data)로 사용하고, 나머지 k-1개의 부분집합을 학습 데이터(training data)로 사용하여 모델을 학습시키는 과정을 k번 반복하는 것입니다. 이 과정에서 k개의 모델이 생성되고 각각의 모델은 서로 다른 검증 데이터로 성능을 측정합니다. 이렇게 측정된 성능 지표를 k번 평균하여 최종 성능 지표를 계산합니다. 위 그림의 경우 5-fold cross validation을 수행합니다. 데이터 세트는 5..

[머신러닝] 편형(Bias)와 분산(Variance)란? 파이썬 예제 코드로 이해하기(Trade off)

[머신러닝] 편형(Bias)와 분산(Variance)란? 머신러닝에서 편향(bias)과 분산(variance)은 모델의 성능과 일반화 능력에 영향을 주는 두 가지 주요 요소입니다. 이 두 가지는 모델의 예측 오차를 계산하는 데사용 합니다. **바는 평균을 의미 하고 삿갓은 추정값을 의미합니다. 1. 편향(bias) : 편향은 모델이 실제 데이터와 얼마나 차이가 있는지를 나타내는 척도입니다. 높은 편향을 가진 모델은 학습 데이터에 대해서도 부정확한 예측을 하는 경향이 있습니다. 이는 모델이 너무 단순하거나, 데이터의 복잡한 패턴을 충분히 학습하지 못한 경우 발생합니다. 이를 과소적합(underfitting)이라고도 합니다. 2. 분산(variance) : 분산은 모델이 학습 데이터의 작은 변화에 얼마나 민..

[선형대수학] 행렬 고유값과 고유벡터란? 수식풀이, 파이썬으로 예제 검증(Eigen value, eigen vector, python)

목차 [선형대수학] 행렬 고유값과 고유벡터란? 선형대수학에서, 고유값(eigenvalue)과 고유벡터(eigenvector)는 선형변환(linear transformation)에 대한 중요한 개념입니다. 선형변환은 벡터를 다른 벡터로 변환하는 연산입니다. 예를 들어, 2차원 벡터를 회전하는 변환이나, 3차원 벡터를 축소시키는 변환 등이 있습니다. 이때 고유값과 고유벡터는 선형변환에 대한 특별한 속성을 가지고 있습니다. 고유벡터는 선형변환을 적용해도 방향이 변하지 않는 벡터를 말합니다. 다시 말해서, 어떤 선형변환을 적용하더라도 그 벡터가 향하는 방향은 변하지 않습니다. 수식으로는 다음과 같이 표현할 수 있습니다. Av = λv, 수식1 여기서 A는 선형변환, v는 고유벡터, λ는 고유값입니다. 동일한 벡..

[머신러닝]일반화(Generalization), 과적합(Overfitting, Underfitting)이란? 파이썬 코드 예제(그래프 포함)

목차 일반화(Generalization), 과적합(Overfitting, Underfitting) 이란? 일반화(Generalization) 머신러닝에서 Generalization(일반화)은 모델이 학습 데이터에 대해 학습한 후, 이전에 본 적 없는 새로운 데이터에 대해 정확하게 예측할 수 있는 능력을 말합니다. 예를 들어 앞서 선형 회기(Linear Regression)에서 가지고 있는 데이터 셋을 사용해서 파라미터들을 유추해서 모델링을 만들어 이 후에 발생하는 입력에 대한 출력을 예측 가능하게 하는 것을 의미합니다. 과적합(Overfitting/Underfitting) 일반적으로 머신러닝 모델을 학습시키는 과정에서는, 훈련 데이터셋을 사용하여 모델의 가중치(Weights)를 조정하고 최적화를 수행합니..

[Python] 원핫인코딩(One Hot Encoding)이란? 쉬운 예제로 실습하기

목차 원핫인코딩(One Hot Encoding)이란? 원 핫 인코딩(One Hot Encoding)은 카테고리 변수(Categorical Variable)를 머신러닝에서 처리할 수 있는 Binary 벡터(Vector) 값으로 변환해주는 방법을 말 합니다. 선형 회기 예를 들어 설명하겠습니다. 위 수식1은 다중 선형 회기 수식입니다. X, Y 값은 사용자가 가지고 있는 데이터 셋의 값입니다. 만일 입력 값 중에 하나가 색상의 값으로 빨강, 노랑, 파랑 색으로 들어오면 해당 입력은 범주형 변수(Categorical variable)이므로 Binary로 변환해야 합니다. 그래서 아래와 같이 표현할 수 있습니다. 빨강 [1 0 0], 파랑 [0 1 0], 노랑 [0 0 1] 로 벡터 값으로 변환해서 처리 할 수..

[Python] Multi Linear Regression 실습 3차원 모델 그리기 (Boston House Price 주택 가격 추정, 다수 선형 회기)

목차 파이썬 Multi Linear Regression 실습 #1 보스톤 주택 가격에 관련된 값들을 서버에서 받아서 dataframe으로 넣어 줍니다. 예제 코드>> import pandas as pd df = pd.read_csv('https://raw.githubusercontent.com/rasbt/python-machine-learning-book-3rd-edition/master/ch10/housing.data.txt', header=None, sep='\s+') df.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] print(df.hea..

선형회기 R제곱 통계값이란?(Linear Regression, R2, R^2, R Square)

목차 선형회기 R제곱 통계값이란?(Linear Regression, R2, R^2) R제곱 통계값은 선형 회기 모델이 종속 변수에 대한 모델링을 얼마나 잘 표현해주었는지를 알려주는 적합도입니다. 결정계수라고 불리는 R제곱 값은 전체 변동량 중에서 선형 회기 모델에 의해 표현 되어지는 비율을 얘기합니다. 수식으로 표현하면 아래와 같습니다. 수식1에서 RSS는 Sum of Squared Residual 로 SSR로 표현하기도 합니다. RSS는 실제 데이터 값에서 추정값을 빼고 제곱을 취한 값으로 이를 Residual이라고 합니다. 수식1에서 TSS는 Total Sum of Square로 데이터 값에서 평균을 빼고 제곱을 취한 값입니다. TSS의 의미는 선형회기 모델이 만들어지기 전에 데이터의 예측 예러를 가..

통계 가설검정, 귀무/대립 가설, 유의수준, p-value(Hypothesis Test, Null, Alternative)이란? 선형회기(Linear Regression) 수식 적용

목차 통계 가설 검정, 귀무/대립 가설, 유의수준, p-value란? 가설 검증/검정(Hypothesis Tests)는 말 그대로 가설을 검증하는 이론입니다. 다만 느낌적으로 풀어내는 것이 아닌 수식적으로 풀어내는 것입니다. 예를 들어 동일한 크기의 소리를 발생하는 스피커를 제작 하는 회사가 있다고 가정하겠습니다. 해당 소리 크기는 10 pascal에 맞춰서 나온다고 합니다. 이중에서 샘플 n개를 뽑아서 실제 샘플의 스피커들이 10 pascal에 맞추는지 확인하는 것이 가설 검증이라고 합니다. 검증을 위해 2가지 가설을 세울 수 있습니다. 귀무가설(Null Hypothesis) : 반대로 기각하려는 가설 H0 대립가설(Alternative Hypothesis) : 증명하려는 가설 H1 가설 검증은 일반적..

통계 신뢰 구간(Confidence Interval)이란? 선형회기 적용 수식 풀이

목차 통계 신뢰 구간(Confidence Interval)이란? 선형회기에서 신뢰구간(Confidence Interval)이 어떻게 동작하는지 알아보기 전에 통계학에서 신뢰 구간을 어떻게 정의하고 수식으로 전개하는지에 대해 알아보겠습니다. 그림1과 같이 모집단(Population)의 평균과 분산이 노란색 박스와 같이 이루어 져있을 경우 모집단에서 일부 샘플 n개를 가져와서 표본집단(Sample)을 만들 경우 해당 표본 집단은 정규분포의 확률 구조를 따른다고 앞서 배웠습니다. 이때 정규분포(Normal Distribution)의 특성을 알려주는 평균과 분산의 값은 그림1의 파란색 박스와 같습니다. 파란색 원의 표준 분포는 수식1과 같이 표기 해줍니다. 신뢰 구간을 얘기 하기 전에 표준 정균 분포(Stand..

반응형