반응형
목차
파이썬 Excel의 동일한 값 개수 세기
이번에는 제목 그대로 엑셀의 동일한 값의 개수를 Count 하는 방법에 대해 알아보겠습니다. 처음에는 엑셀(Excel)로 처리하려고 하였지만 방법을 찾기가 어려워서 파이썬(Python)의 판다스(Pandas) 한줄로 간단하게 해결 하였습니다.
우선 저에게 주어진 과제는 아래와 같습니다.
위와 같이 엑셀 파일에 지역명이 텍스트로 적혀있는데 동일 지역명을 검출하고 각 지역명이 몇개로 구성되었는지를 확인하는 것이었습니다. 위는 간략한 예제이고 실제 값은 몇 천개 정도 있었습니다.
위와 같은 과제는 사실 엑셀로 처리하기 쉽지 않습니다. 그래서 저는 간단하게 아래와 같이 파이썬을 사용해서 처리하였습니다.
전체 코드>>
import pandas as pd
df = pd.read_csv("db_raw")
print("Origial Dataframe")
print(df)
print("\nCounting Dataframe")
cnt_df = df.value_counts()
print(cnt_df)
결과>>
Origial Dataframe
지역
0 광주
1 대전
2 대전
3 청주
4 청주
5 천안
Counting Dataframe
지역
대전 2
청주 2
광주 1
천안 1
dtype: int64
코드 주석>>
df = pd.read_csv("db_raw")
앞서 엑셀 파일을 csv 파일로 저장해서 읽어도 되고 저는 제가 확인하고자 하는 데이터만 긁어서 아래와 같이 visual studio에서 파일을 만들어서 사용했습니다.
cnt_df = df.value_counts()
value_counts가 핵심 코드입니다. value_counts는 판다스의 함수로 동일한 값의 개수를 카운트 해주고 동일한 내용은 삭제해서 쉽게 확인할 수 있게 도와줍니다.
만일 데이터가 위와 같이 하나의 행(Row)이나 열(Column)로 구성된 것이 아닌 여러개의 열과 행으로 구성되었을 경우 예전에 작성한 아래 글을 참조하시면 됩니다.
https://scribblinganything.tistory.com/477
반응형
'파이썬(Python) > pandas' 카테고리의 다른 글
[Python]Pandas 인덱스, 행/열 이름 List로 출력하기(Index, Value, Name) (0) | 2022.03.11 |
---|---|
[Python] Pandas CSV 파일 읽기 (에러 발생/해결) (0) | 2022.03.05 |
[Python]Pandas Dataframe 데이터 불러오기, loc, iloc 차이, 필터(Filter) 처리 (0) | 2022.02.26 |
[Python] Pandas dataframe 중복 (동일)값 찾고 삭제하는 방법 (0) | 2022.02.25 |
[Python] Pandas 여러가지 정렬방법(Multi Column, Index 제외 정렬 등) (0) | 2022.02.24 |