- 2차원 labeld table : 가로세로가 있는 데이터 구조
- 인덱스 지정 가능
Pandas 데이터타입 확인하는 방법
-df.dtypes
Pandas는 .csv파일을 dataframe화 할 수 있다.
- .read_csv() -> 경로 설정 가능
Pandas 데이터 일부분만 관찰하기
- .head(n) : 처음 n개의 데이터
- .tail(n) : 마지막 n개의 데이터
Pandas 데이터 접근하기(열 기준)
- df['column_name']
- df.column_name
- 여기서 각 column은 series임
Pandas 조건으로 데이터 접근하기(열 기준)
- 조건식 바로 사용 가능
- 이 데이터를 다시 covid의 key로 넣어주면 True 인 row만 출력됨
- covid[covid["New cases"] > 1000]
- 범위를 볼 수 있는 함수 .unique()
- 범위 확인 후 다시 부분 관찰
Pandas 행을 기준으로 데이터 접근하기
- 예시 데이터
books_dict = {"Available":[True, True, False], "Location":[102, 214, 323], "Genre":["Programing", "Physics", "M"]}
books_df = pd.DataFrame(books_dict, index = ['버그란 무엇인가', '두근두근 물리학', '미분해줘 홈즈'])
- 인덱스를 이용해서 가져오기 : .loc[row, col]
- 조건식 부여 : ex) 어떤 책이 대출 가능한지??
숫자 인덱스를 이용해서 가져오기
- iloc.[rowidx, colidx]
- Slicing 도 가능하다
Pandas 의 groupby
- Split : 특정한 기준을 바탕으로 DataFrame 분할
- Apply : 통계함수 -> sum(), mean(), median() 등을 적용해서 데이터를 압축
- Combine : Apply된 결과를 바탕으로 새로운 Series를 생성(group_key : applied_value)
## WHO Region 별로 확진자수를 찾아보자
covid_group_region = covid[].groupby(by = covid["WHO Region"])
- 'by =' 은 기준
1. covid에서 확진자 수 column만 추출
2. 이 데이터를 covid의 WHO Region을 기준으로 groupby한다
- sum() 함수로 Apply를 하면 원하는 데이터 정보들이 나옴(지역 별로)
## 국가별 감염자 수를 확인해보자