반응형

파이썬(Python)/pandas 13

[Python]엑셀의 동일한 값 몇 개 인지 카운트 Pandas에서 쉽게 처리하기(판다스, 숫자, 텍스트, 중복 삭제)

목차 파이썬 Excel의 동일한 값 개수 세기 이번에는 제목 그대로 엑셀의 동일한 값의 개수를 Count 하는 방법에 대해 알아보겠습니다. 처음에는 엑셀(Excel)로 처리하려고 하였지만 방법을 찾기가 어려워서 파이썬(Python)의 판다스(Pandas) 한줄로 간단하게 해결 하였습니다. 우선 저에게 주어진 과제는 아래와 같습니다. 위와 같이 엑셀 파일에 지역명이 텍스트로 적혀있는데 동일 지역명을 검출하고 각 지역명이 몇개로 구성되었는지를 확인하는 것이었습니다. 위는 간략한 예제이고 실제 값은 몇 천개 정도 있었습니다. 위와 같은 과제는 사실 엑셀로 처리하기 쉽지 않습니다. 그래서 저는 간단하게 아래와 같이 파이썬을 사용해서 처리하였습니다. 전체 코드>> import pandas as pd df = pd..

[Python]Pandas 인덱스, 행/열 이름 List로 출력하기(Index, Value, Name)

목차 [Python]Pandas 인덱스, 행/열 이름 출력하기(Index, Value, Name) loc를 통해서 Pandas의 dataframe, series의 값을 출력 했습니다. 이번 포스트에서는 index 명이나 Column 최상단의 값을 list로 추출하는 방법에 대해 알아 보겠습니다. 출력 방법은 간단합니다. 아래 함수를 사용해서 출력 하면 됩니다. index : 인덱스 값을 불러 옵니다. values : dataframe 값을 불러 옵니다. columns : 열의 헤더(Header)값을 불러 옵니다. to_list : 불러 온 값을 리스트로 바꿔줍니다. 예제 코드- Index값>> import pandas as pd df = pd.DataFrame({ "name" : ["James", "Ja..

[Python] Pandas CSV 파일 읽기 (에러 발생/해결)

목차 파이썬 판다스로 CSV 파일 읽기 문제 발생 이번 포스트는 어떤 프로그램을 통해서 데이터를 저장하였고 저장은 csv file로 하였습니다. 데이터 분석을 위해 pandas dataframe을 사용하려고 하는데 csv 를 불러 오는 과정에서 에러가 발생하였습니다. 해결 방법에는 2가지가 있는데 아래에서 소개하겠습니다.(CSV file to dataframe/series)) 우선 아래 예제 코드 처럼 pandas의 read_csv 함수를 사용해서 동일 폴더 안에 있는 csv file을 읽는 코드를 작성했습니다. 예제 코드>> import pandas as pd data = pd.read_csv('Driving_data_long.csv') print(data) 에러 코드>> Traceback (most ..

[Python]Pandas Dataframe 데이터 불러오기, loc, iloc 차이, 필터(Filter) 처리

목차 [파이썬] Pandas Dataframe loc, iloc 함수 정의 및 차이 loc 함수는 라벨(Label) 기준으로 행(Row)과 열(Colum)을 필터(Filter)해 줍니다. 예를 들어 3번 index에 내용을 찾을 때 3번 Index가 가지는 라벨 이름(name)을 통해서 검색합니다. 그리고 index 값을 이용해서 검색도 가능해서 index 검색 시 형 전체를 표기 해줍니다. iloc는 정수로된 index를 기준으로 필터링 해줍니다. index 값을 이용해서 행과 열 모두 검색 가능합니다. 아래 예제를 통해 쉽게 이해할 수 있습니다. [파이썬] Pandas Dataframe loc label 필터링 예제 아래 예제는 loc에 조건식을 넣어서 조건에 맞는 값만 출력되게 만든 loc 예제 입..

[Python] Pandas dataframe 중복 (동일)값 찾고 삭제하는 방법

목차 [파이썬] Pandas Dataframe 중복 값 찾기 판다스 Dataframe은 열과 행 (Column and row)로 구성되어 있습니다. 여기서 열 값 중에 같은 값들을 찾는 방법에 대해 알아 보겠습니다. 중복 값 찾기는 duplicate 함수로 구현 가능 합니다. 예제 코드>> import pandas as pd import numpy as np df = pd.DataFrame({ "name" : ["James", "James", "Kevin", "Adam", "David", "Adam"], "math" : [90,50,50,30,100,90], "physics" : [30,40,80,50,10,50], "english" : [90,70,30,90,90,40] }) print("Origial..

[Python] Pandas 여러가지 정렬방법(Multi Column, Index 제외 정렬 등)

목차 Python Pandas 정렬(Sorting) 파이썬의 판다스를 이용해서 정렬을 하려고 합니다. 엑셀에서 정렬을 해보시면 아시겠지만 열을 하나만 선택하거나 두개를 선택해서 정렬하거나 다양한 방법들이 있습니다. 이번 포스트는 index 사용 정렬이 아닌 column 관련 정렬로 sort_values 함수를 사용해서 정렬할 것입니다. 아래 예제 실습을 통해 사용 방법을 익혀보겠습니다. 기본 Column 하나로 정렬하기 예제 코드>> import pandas as pd import numpy as np df = pd.DataFrame({ "name" : ["James", "James", "Kevin", "Adam", np.nan], "math" : [90,50,50,30,100], "physics" : ..

[Python]Pandas에서 CSV 파일 읽기 에러 해결

목차 CSV 읽기 에러 현상 코드는 아래와 같이 단순하게 read_csv 함수로 csv 파일을 읽어 오는 것입니다. 문제코드>> import pandas as pd df=pd.read_csv("D:\\Driving_data.csv") print(df) 실행 결과 아래와 같은 에러 메세지가 발생하였습니다. 에러코드>> Traceback (most recent call last): File "d:\Python\test00\test02.py", line 3, in df=pd.read_csv("D:\\Driving_data.csv") File "C:\Users\forgo\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\util\_decorato..

[Python] Pandas 이동평균 함수 사용법 (Rolling)

목차 [Python] Pandas 이동평균 함수 사용법 (Rolling) 파이썬의 판다스에서 제공하는 함수 중에 Rolling이라는 함수가 있습니다. 테이블에 많은 데이터가 있고 전체에 대한 평균이나 최소 최대값을 알고 싶은 것이아니라 Window 창이 이동하듯이 X축의 창을 이동하면서 Y값의 평균 최소 최대 값을 구해야 하는 경우들이 있습니다. 일반적인 코딩은 for문을 여러번 사용하여 복잡하게 계산하지만 Pandas rolling을 사용하게 되면 간단하게 이동하는 윈도우의 수치결과를 얻을 수 있습니다. 참고로 앞서 포스트에서 rolling 함수를 사용해서 30일간 이동 평균 Window를 이동시키면서 코스피 고점 대비 하락률을 계산하고 그리는 예제를 하였습니다. 해당 내용이 궁금하시면 아래 링크 참조..

[Python] 코스피 1년 차트 그리기(Pandas, Matplotlib)

목차 [Python] 코스피 1년 차트 그리기 : 진행 과정 이번 포스트에서는 지난 1년간의 코스피 차트를 그려볼 예정입니다. 이번 프로젝트를 진행하기 위해 아래와 같은 과정이 필요합니다. 코스피 1년 동안의 차트 데이터 수집 판다스를 이용해서 차트 데이터를 테이블로 정리하기 정리된 테이블 중 비교를 원하는 데이터를 가져오기 그래프로 만들기 데이터 분석하기 1번 과정은 Web Scrawling을 통해서 가능합니다. 웹 스크롤링의 방법은 아래 링크를 참조하시면 됩니다. https://scribblinganything.tistory.com/372 [Python] BS4로 네이버금융 종목분석-재무분석 값 가져오기 목차 [Python] BS4로 네이버금융 종목분석 : 사용 소프트웨어, 설치 이번 포스트에서는 웹..

[Python] 코스피, 코스닥 값 불러와서 분석하기(pandas)

목차 [Python] 코스피, 코스닥 값 불러와서 분석하기 : 설정 주식에 관심이 많아서 코딩으로 투자에 접목해볼 만한것이 뭐가 있나 생각하던 참에 최근에 사용하고 있던 파이썬의 판다스(pandas)라는 모듈을 가지고 코스피(Kospi), 코스닥(Kosdaq)을 분석 해보려고 합니다. 판다스(Padas)는 최근에 많이 사용되는 라이브러리(Library)로 데이터 분석을 효율적으로 처리해줍니다. 데이터를 엑셀과 같은 테이블에 배치하여 내부 값을 쉽게 처리해줍니다. 가령 최소값(min), 최대값(max), 표준편차(standard deviation), 퍼센트(Percentile)에 따른 값 찾기 등을 명령어 하나로 간단하게 처리 할수 있게 도와 줍니다. 해당 내용에 대해서는 아래에서 다루도록 하겠습니다. 우..

반응형