Skip to main content

pandas

·180 words·1 min
Sungho Park (gigio1023)
Author
Sungho Park (gigio1023)
To build a genuinely useful product

쓸 때마다 쓰기 싫고 사용법 익히자마자 잊어버리는 pandas다. 까먹지 않게 정리해둔다.

Pandas
#

tabular 데이터를 다루기 위한 라이브러리. R의 체계를 많이 따왔다고 한다. numpy와 통합되면서 성능도 향상됐다고 한다.

DataFrame
#

  • Data table 전체를 포함하는 object. 모든 데이터의 wrapper라고 생각하면 된다.
  • DataFrame의 Serires들은 Series마다 data type이 다를 수 있다.

Series
#

ojb = Series(data=data, index=index)
ojb.index # -> index list
ojb.values # -> only list of values
  • DataFrame 중 하나의 column에 해당하는 object.
  • numpy의 wrapper지만 indexing에서 다른 점이 있다.
    • numpy처럼 숫자로만 indexing이 되는 것이 아니라 문자로도 가능하다.
  • data에 list를 넣으면 자동으로 숫자가 indexing.
  • data에 dict를 넣으면 자동으로 dict 형태에 맞춰서 indexing.
  • index parameter가 최우선으로 indexing 우선권을 가진다.

read_csv()
#

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

pd.read_csv(data, sep='\s+\, header=None)
  • data: file system, web url 모두 가능
  • seperator: seperator 지정
    • s: single space
    • +: 여러개가 있다. 나도 이 정도만 썻던거 같다. 필요하면 docs에서 계속 찾아가면서 쓰자.

head(n)
#

상위 n개의 데이터만 불러온다.

columns
#

리스트 형태이고 column들의 이름을 지정할 수 있다.

df_data.columns = ['a', 'b']

values
#

pandas를 numpy 형태로 반환한다.

iloc, loc
#

loc는 column 명을 접근하는 방식을 지원한다. iloc는 numpy처럼 접근 가능하게 해준다. 난 iloc가 편한다..

Reply by Email