쓸 때마다 쓰기 싫고 사용법 익히자마자 잊어버리는 pandas다. 까먹지 않게 정리해둔다.

Pandas
#

tabular 데이터를 다루기 위한 라이브러리. R의 체계를 많이 따왔다고 한다. numpy와 통합되면서 성능도 향상됐다고 한다.

DataFrame
#

ojb = Series(data=data, index=index)
ojb.index # -> index list
ojb.values # -> only list of values

DataFrame 중 하나의 column에 해당하는 object.
numpy의 wrapper지만 indexing에서 다른 점이 있다.
- numpy처럼 숫자로만 indexing이 되는 것이 아니라 문자로도 가능하다.
data에 list를 넣으면 자동으로 숫자가 indexing.
data에 dict를 넣으면 자동으로 dict 형태에 맞춰서 indexing.
index parameter가 최우선으로 indexing 우선권을 가진다.

pd.read_csv(data, sep='\s+\, header=None)

data: file system, web url 모두 가능
seperator: seperator 지정
- s: single space
- +: 여러개가 있다. 나도 이 정도만 썻던거 같다. 필요하면 docs에서 계속 찾아가면서 쓰자.

상위 n개의 데이터만 불러온다.

리스트 형태이고 column들의 이름을 지정할 수 있다.

df_data.columns = ['a', 'b']

pandas를 numpy 형태로 반환한다.

loc는 column 명을 접근하는 방식을 지원한다. iloc는 numpy처럼 접근 가능하게 해준다. 난 iloc가 편한다..

Reply by Email