인공지능/EDA
[EDA] EDA에 대해, Titanic 데이터로 분석하기
You_mool
2021. 8. 9. 17:52
반응형
EDA란?
- 데이터 그 자체만으로 인사이트를 얻어내는 접근법(시각화)
EDA의 Process
1. 분석의 목적과 변수(Column) 확인(명확하게)
2. 데이터를 전체적으로 살펴보기(데이터 간의 상관관계나 NULL값이 있는지 없는지 확인)
3. 데이터의 개별 속성 파악하기
Titanic Data를 통해서 분석하기
1. 목적 : 살아남은 살마들은 어떤 특징을 가지고 있었을까?

titanic_df.dtypes
titanic_df.describe() # 수치형 데이터만 보여줌

상관 계수 확인

titanic_df.corr()
#Correlation is Not causation
상관성이 있다고 인과성이 있는 게 아니다!
결측치 확인
titanic_df.isnull().sum()

생존자수와 사망자수를 Barplot으로 그려보기 sns.countplot()
sns.countplot(x='Survived', data=titanic_df)

Pclass 관계 알아보기
- Pclass에 따른 인원 파악

- 생존 비율 알아보기


- 성별로 알아보기
titanic_df.groupby(['Survived', 'Sex'])['Survived'].count()

catplot으로 시각화

- 나이로 알아보기(결측치가 존재하므로 조심해야 함)

20~30대는 사망자 수가 더 높음, 60대도 사망자 수고 더 높지만 어린 아이들은 생존자 수가 더 많은 것을 알 수 있음
반응형