반응형

EDA
- 탐색적 데이터 분석
- 데이터 분석하고 결과를 도출하는 과정에 있어서 지속적 으로 해당 데이처레 대한 탐색과 이해를 기본적으로 가져야 한다는 의미
데이터 종류
- 수치형 데이터
- 연속형(데이터 속에 연속적으로 발생)
- 일정 범위 안에서 어떤 값 도 취할수 있느 실수형 데이터( ex, 온도, 키, 운임료(소수점 으로 떨어질 때), 풍속 )
- 이산형( 산건발생 횟수 )
- 횟수 같은 정수형 데이터( ex, 사건에대한 발생 횟수, 방개수, 부모자식 수 )
- 연속형(데이터 속에 연속적으로 발생)
- 범주형 데이터
- 가능한 범주안의 값만 취할 수 있는 데이터( ex, 성별, 전공, 장르, 영화평점, 직급 ) 순서형과 명목형이 있음
# pandas, numpy 호출
import pandas as pd
import numpy as np
# google deive mount
from google.colab import derive
drive.mount("/content/drive")
- 불러올 데이터 파일경로 지
DATA_PATH = "/content/drive/MyDrive/파일이름.확장자"
df = pd.read_csv(f"{DATA_PATH}titanic.csv")

데이터 보기
df.info()

수치형 데이터를 분석하기
- 총합
df["fare"].sum()
- 평균
df["fare"].mean()
- 중앙값
df["fare"].median()
- 분산
df["fare"].var()
- 표준편차
df["fare"].std()
- 분위수
df["fare"].quantile([ 0.25, 0.5, 0.75 ])
왜도( Skewness )
- 데이터 분포의 비대칭도를 나타내는 통계량
- 분포가 오른쪽으로 치우쳐저 있고 왼쪽으로 긴 꼬리를 가지는 경우 왜도는 음수
- 분포가 왼쪽으로 치우쳐서 오른쪽으로 긴 꼬리를 가지는 경우 왜도는 양수
- 정규 분포와 같이 좌우 대칭인 경우 왜도는 0에 가까워진다.
df["fare"].skew()
상관계수
- 칼 피어슨(karl Pearson)이 개발한 상관계수
- 두 개의 수치형 변수의 변화가 연관되는 정도
- +1 ~ -1 사이의 값을 가짐
- +1 의 가까울 수록 양의 상관관계
- -1 의 가까울 수록 음의 상관관계
- 0에 가까울 수록 상관관계x
cols = [ "survived", "age", "sibsp", "parch", "fare" ]
df[cols].corr()

범주형 데이터 분석하기
- 고유값들 보기
df["embarked"].nunique() # 원핫인코딩
df["embarked"].unique()
- 최빈값
df["embarked"].mode()
- 범주별 개수보기
df["embarked"].value_counts()
df["embarked"].value_counts( normalize = True )
- 범주형 관계보기
pd.crosstab( df["gender"], df["survived"], margins = True )

pd.crosstab( df["gender"], df["survived"], margins=True, normalize="index" ) # 비율로보기
반응형
'python' 카테고리의 다른 글
[python]파이썬 - numpy_차원 (0) | 2023.02.10 |
---|---|
[python]파이썬 - numpy (0) | 2023.02.10 |
[python]파이썬 - pandas (0) | 2023.01.31 |
[python]파이썬 - open API (2) | 2023.01.30 |
[python]파이썬 - pip와 가상환경 (0) | 2023.01.26 |
댓글