[Python] sklearn ColumnTransformer이란? 예제 실습(SimpleImputer, fit

파이썬(Python)/머신러닝(Machine Learning)

[Python] sklearn ColumnTransformer이란? 예제 실습(SimpleImputer, fit_transform)

끄적끄적아무거나 2023. 2. 7. 08:50

파이썬 ColumnTransformer 란?

파이썬의 머신러닝(Machine Learning)과 데이터 사이언스(Data Science) 파이프라인(Pipeline)에서 데이터 프로세싱(Data Processing)은 가장 시간과 노력이 많이 들어가는 일입니다.

일반적으로 현장에서 가져온 데이터들은 정형화 되지 않고 Machine learning 모델에 적용하기 힘든 형태 입니다.

일부 빠진 값들
표준화 되지 않은 값들
포맷에 맞지 않은 형태의 값들
중복되는 값들

위와 같은 형태들이 모델 적용이 어려운 raw data 들입니다.

Sklearn의 ColumnTransformer는 위와 같이 처리가 어려운 값들을 파이프라인(Pipeline) 과정으로 사용자가 머신러닝(Machine Learning)에 사용할 수 있게 처리해주는 라이브러리 입니다.

파이썬 ColumnTransformer 예제 실습(SimpleImputer) #1

가장 많이 사용되는 예제가 테이블 형태의 데이터(Tabular data) 입니다. 예를 들어 테이블에 키를 표현하는 값들이 들어가 있는데 일부 값들이 누락되어 "Null"로 표기 되어 있는 경우 ColumnTransformer의 SimpleImputer를 사용해서 처리 할 수 있습니다.

그림 처럼 키에 대한 null 값만 평균으로 처리하고 나머지는 통과 시키도록 해보겠습니다.

예제 전체 코드>>

from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
import pandas as pd
import numpy as np

data_df = pd.DataFrame({
    "height":[165,np.nan,182],
    "weight":[70,62,np.nan],
    "age":[24,18,15]
})

col_transformer = ColumnTransformer([("input_mean", SimpleImputer(strategy="mean"), ["height"])], remainder="passthrough")

print(data_df)
print(col_transformer.fit_transform(data_df))

결과>>

   height  weight  age
0   165.0    70.0   24
1     NaN    62.0   18
2   182.0     NaN   15
[[165.   70.   24. ]
 [173.5  62.   18. ]
 [182.    nan  15. ]]

코드 해석>>

data_df = pd.DataFrame({
    "height":[165,np.nan,182],
    "weight":[70,62,np.nan],
    "age":[24,18,15]
})

판다스 데이터프레임에 위와 같이 null 값과 일부 입력값을 입력해줍니다.

col_transformer = ColumnTransformer([("ImputPrice", SimpleImputer(strategy="mean"), ["height"])], remainder="passthrough")

ColumnTransformer의 SimpleImputer를 사용해서 height의 null 값들은 평균으로 출력하고 나머지 column은 통과 시켜 줍니다.

파이썬 ColumnTransformer 예제 실습(SimpleImputer) #2

이번에는 키 열의 null 값을 평균(mean)으로 무게 열의 null 값을 중간값(median) 그리고 나머지 null 값은 -1로 채워 보겠습니다.

예제 코드>>

from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
import pandas as pd
import numpy as np

data_df = pd.DataFrame({
    "height":[165,np.nan,182],
    "weight":[70,62,np.nan],
    "age":[np.nan,18,15]
})

col_transformer = ColumnTransformer(
    [("input_mean"  , SimpleImputer(strategy="mean")  , ["height"]),
     ("input_median", SimpleImputer(strategy="median"), ["weight"])
    ],
    remainder=SimpleImputer(strategy="constant", fill_value=-1)
  )

print(data_df)
print(col_transformer.fit_transform(data_df))

결과>>

   height  weight   age
0   165.0    70.0   NaN
1     NaN    62.0  18.0
2   182.0     NaN  15.0
[[165.   70.   -1. ]
 [173.5  62.   18. ]
 [182.   66.   15. ]]

코드 주석>>

col_transformer = ColumnTransformer(
    [("input_mean"  , SimpleImputer(strategy="mean")  , ["height"]),
     ("input_median", SimpleImputer(strategy="median"), ["weight"])
    ],
    remainder=SimpleImputer(strategy="constant", fill_value=-1)
  )

SimpleImputer를 사용해서 mean과 median 값을 null에 넣고 나머지 열(column)에 대한 값은 상수로 -1 값을 넣어 줍니다.

예제 코드 다운로드

sklearn_ex.py

0.00MB

다음 포스트에서는 pipeline 사용법과 파이프라인을 이미지화 하는 방법에 대해 알아보겠습니다.

저작자표시 비영리 변경금지 (새창열림)

'파이썬(Python) > 머신러닝(Machine Learning)' 카테고리의 다른 글

[Python] sklearn 정규 분포 만들기(StandardScaler), 그래프 비교 (0)	2023.02.16
[Python] sklearn 파이프라인(Pipeline) + ColumnTransformers (0)	2023.02.14
[Python] sklearn 경사하강법(Gradient Descent)란? 사용방법 및 예제 실습(SGD) (2)	2023.01.09
[Python] sklearn train_test_split 사용법, Syntax, 예제 (0)	2023.01.05
[Python] sklearn 설치 및 기본 회귀 모델 예제 실습(Linear Regression) (0)	2022.12.31

현재글[Python] sklearn ColumnTransformer이란? 예제 실습(SimpleImputer, fit_transform)

파이썬(python), flask, db, coding, 코딩, 주식, IT, 진동, 피로 등 여러가지 공부합니다. 아이와 함께 여행, 맛집 리뷰합니다.

변경, flask, VR, 티킨터, 플라스크, 팜테크, JavaScript, Arduino, famtech, stress, 파이선, Python, 주식, HTML, c언어, 부트스트랩, 그래프, 아두이노, 파이썬, 함수,

여행하는 코딩끄적끄적