파이썬 판다스 설치하고, 기초 사용법 읽히기!

2021. 9. 2. 11:41

파이썬 판다스는 데이터 분석할 때 빠지지 않고 사용되는 패키지이다. 판다스를 이용하면, 데이터 프레임이라는 자료형을 사용할 수 있다. 데이터 프레임은 테이블 형태의 자료구조로, 테이블 형태는 엑셀처럼 행과 열로 이루어진 데이터를 말한다. 오늘은 파이썬 판다스 패키지를 설치하고, 기초 사용법에 대해서 알아보도록 하겠다.

 

파이썬 판다스

 

1. 판다스 설치하기

판다스 패키지는 터미널이나 명령 프롬프트에서 pip install pandas를 실행하면 설치할 수 있다. 혹은 아나콘다 배포판을 이용하면 별도의 설치 없이 이용할 수도 있다. 아나콘다는 데이터 분석과 관련된 패키지를 모아서 파이썬 설치 버전으로 만든 것으로, 개별로 패키지를 설치하는 번거로움이 없다. 파이썬 아나콘다 배포판을 설치하는 방법은 이전 포스팅에서 자세히 다루었으니 참고하기 바란다.

 


2. 판다스 기초 사용법

판다스를 하기 위해서는 해당 패키지를 불러와야 한다. 보통 아래와 같이 패키지를 불러오고 약어로 pd를 많이 사용한다.

import pandas as pd


여기서 데이터프레임을 직접 만들 수도 있고, 기존에 있는 테이블 형태의 데이터를 불러올 수도 있다. 엑셀,CSV 같은 텍스트파일 뿐만 아니라 MySQL,마리아DB 같은 DB에서도 데이터를 불러올 수 있다.


직접 만드는 방법은 여러가가 있지만, 딕셔너리 자료형을 이용하는 것이 가장 편리하다. 키값이 칼럼명이 되고, 값이 데이터가 된다.

df=pd.DataFrame({"col":[1,2,3,4]})
print(df)

[Out]:
    col
0    1
1    2
2    3
3    4

 

직접 만든 데이터로는 재미가 없어, 아파트 매매 실거래가 데이터를 불러와봤다. 부동산 데이터도 파이썬 패키지를 이용해서 쉽게 가져올 수 있다.

 

이제 테이블 데이터를 가지고 할 수 있는 편집과 값 요약, 행과 열로 데이터를 나누고 합치는 등의 모든 작업을 할 수 있다. 판다스를 사용하는 것은 파이썬을 사용하는 것과는 조금 다르다. 판다스 패키지의 함수를 잘 아는 것이 중요하다. 아니면 함수 하나로 끝날 일을 몇 줄의 코드로 고생해서 만들 수도 있기 때문이다.

 


데이터를 불러오면 가장 많이 하는 것의 앞의 데이터만 출력하는 head함수를 호출하는 것이다.

df.head()

 

info함수를 이용하면 데이터 타입과 NULL(공백)값의 여부를 알 수 있어 편리하다.

df.info()

 

판다스 데이터 프레임을 이용하는 더 자세한 방법은 필자의 책에도 있으니, 관심 있다면 참고 바란다.
( 참조: 파이썬 데이터 분석 학습, 실행만이 답이다! )

 

 

판다스 데이터 프레임의 데이터는 다른 패키지를 이용해 쉽게 시각화하고 분석할 수 있다. matplotlib이 가장 기본이 되는 패키지이지만, 필자는 seaborn이 분석을 하기에 더 적합한 문법을 가지고 있다고 생각한다. seaborn패키지를 이용해서 데이터를 시각화하는 방법은 다른 포스팅에서 다루었으니 참고하기 바란다.

 

seaborn 그래프 예시

 

 

판다스 패키지의 사용법은 공식 튜토리얼에도 자세하게 설명되어 있으니, 참조하기 바란다.


오늘은 이렇게 파이썬 판다스 설치하고, 기초 사용법에 대해서 알아보았다. 판다스는 파이썬 데이터 분석에서 많이 사용되는 중요한 패키지이다. 자신에게 잘 맞는 방법으로 해당 패키지의 사용법을 익혀두기 바란다.

태그 :

댓글()