본문 바로가기
인공지능/Pandas

[Pandas] Dataframe 이란?, 2차원 데이터 다루기

by You_mool 2021. 7. 17.
반응형

- 2차원 labeld table : 가로세로가 있는 데이터 구조

- 인덱스 지정 가능

Df = pd.DataFrame -> D와 F 가 대문자 인거 조심!!

Pandas 데이터타입 확인하는 방법

-df.dtypes

Pandas는 .csv파일을 dataframe화 할 수 있다.

- .read_csv() -> 경로 설정 가능

여기서는 동일 경로로 사용 -> ./

Pandas 데이터 일부분만 관찰하기

- .head(n) : 처음 n개의 데이터

- .tail(n) : 마지막 n개의 데이터

Pandas 데이터 접근하기(열 기준)

- df['column_name']

- df.column_name

- 여기서 각 column은 series임

Pandas 조건으로 데이터 접근하기(열 기준)

- 조건식 바로 사용 가능

- 이 데이터를 다시 covid의 key로 넣어주면 True 인 row만 출력됨

- covid[covid["New cases"] > 1000]

- 범위를 볼 수 있는 함수 .unique()

- 범위 확인 후 다시 부분 관찰

 

Pandas 행을 기준으로 데이터 접근하기

- 예시 데이터

books_dict = {"Available":[True, True, False], "Location":[102, 214, 323], "Genre":["Programing", "Physics", "M"]}

books_df = pd.DataFrame(books_dict, index = ['버그란 무엇인가', '두근두근 물리학', '미분해줘 홈즈'])

- 인덱스를 이용해서 가져오기 : .loc[row, col]

이 데이터의 타입도 series 임

- 조건식 부여 : ex) 어떤 책이 대출 가능한지??

숫자 인덱스를 이용해서 가져오기
- iloc.[rowidx, colidx]

- Slicing 도 가능하다

Pandas 의 groupby

- Split : 특정한 기준을 바탕으로 DataFrame 분할
- Apply : 통계함수 -> sum(), mean(), median() 등을 적용해서 데이터를 압축
- Combine : Apply된 결과를 바탕으로 새로운 Series를 생성(group_key : applied_value)

## WHO Region 별로 확진자수를 찾아보자

covid_group_region = covid[].groupby(by = covid["WHO Region"])

- 'by =' 은 기준

1. covid에서 확진자 수 column만 추출
2. 이 데이터를 covid의 WHO Region을 기준으로 groupby한다

split 만으로는 데이터 사용 불가(분할만 했기 때문)

- sum() 함수로 Apply를 하면 원하는 데이터 정보들이 나옴(지역 별로)

## 국가별 감염자 수를 확인해보자

반응형