파이썬(Python)/pandas

[Python]엑셀의 동일한 값 몇 개 인지 카운트 Pandas에서 쉽게 처리하기(판다스, 숫자, 텍스트, 중복 삭제)

끄적끄적아무거나 2022. 12. 21. 18:15
반응형

 

목차

     

     

     

     

     

    파이썬 Excel의 동일한 값 개수 세기

    이번에는 제목 그대로 엑셀의 동일한 값의 개수를 Count 하는 방법에 대해 알아보겠습니다. 처음에는 엑셀(Excel)로 처리하려고 하였지만 방법을 찾기가 어려워서 파이썬(Python)의 판다스(Pandas) 한줄로 간단하게 해결 하였습니다.

     

     

    우선 저에게 주어진 과제는 아래와 같습니다. 

     

    위와 같이 엑셀 파일에 지역명이 텍스트로 적혀있는데 동일 지역명을 검출하고 각 지역명이 몇개로 구성되었는지를 확인하는 것이었습니다. 위는 간략한 예제이고 실제 값은 몇 천개 정도 있었습니다. 

     

     

     

    위와 같은 과제는 사실 엑셀로 처리하기 쉽지 않습니다. 그래서 저는 간단하게 아래와 같이 파이썬을 사용해서 처리하였습니다. 

     

    전체 코드>>

    import pandas as pd
    
    
    df = pd.read_csv("db_raw")
    
    print("Origial Dataframe")
    print(df)
    
    print("\nCounting Dataframe")
    cnt_df = df.value_counts()
    print(cnt_df)

     

     

    결과>>

    Origial Dataframe
       지역
    0  광주
    1  대전
    2  대전
    3  청주
    4  청주
    5  천안
    
    Counting Dataframe
    지역
    대전    2
    청주    2
    광주    1
    천안    1
    dtype: int64

     

     

    코드 주석>>

    df = pd.read_csv("db_raw")

    앞서 엑셀 파일을 csv 파일로 저장해서 읽어도 되고 저는 제가 확인하고자 하는 데이터만 긁어서 아래와 같이 visual studio에서 파일을 만들어서 사용했습니다.

     

     

     

     

    cnt_df = df.value_counts()

    value_counts가 핵심 코드입니다. value_counts는 판다스의 함수로 동일한 값의 개수를 카운트 해주고 동일한 내용은 삭제해서 쉽게 확인할 수 있게 도와줍니다. 

     

     

     

    만일 데이터가 위와 같이 하나의 행(Row)이나 열(Column)로 구성된 것이 아닌 여러개의 열과 행으로 구성되었을 경우 예전에 작성한 아래 글을 참조하시면 됩니다. 

     

    https://scribblinganything.tistory.com/477

     

    [Python] Pandas dataframe 중복 (동일)값 찾고 삭제하는 방법

    목차 [파이썬] Pandas Dataframe 중복 값 찾기 판다스 Dataframe은 열과 행 (Column and row)로 구성되어 있습니다. 여기서 열 값 중에 같은 값들을 찾는 방법에 대해 알아 보겠습니다. 중복 값 찾기는 duplicate

    scribblinganything.tistory.com

     

    반응형