본문 바로가기
python

[pypthon]파이썬 - pandas 를 이용한 eda

by skysline 2023. 2. 2.
반응형

EDA

  • 탐색적 데이터 분석
  • 데이터 분석하고 결과를 도출하는 과정에 있어서 지속적 으로 해당 데이처레 대한 탐색과 이해를 기본적으로 가져야 한다는 의미

데이터 종류

  • 수치형 데이터
    • 연속형(데이터 속에 연속적으로 발생)
      • 일정 범위 안에서 어떤 값 도 취할수 있느 실수형 데이터( ex, 온도, 키, 운임료(소수점 으로 떨어질 때), 풍속 )
      • 이산형( 산건발생 횟수 )
        • 횟수 같은 정수형 데이터( ex, 사건에대한 발생 횟수, 방개수, 부모자식 수 )
  • 범주형 데이터
    • 가능한 범주안의 값만 취할 수 있는 데이터( ex, 성별, 전공, 장르, 영화평점, 직급 ) 순서형과 명목형이 있음
# pandas, numpy 호출
import pandas as pd
import numpy as np
# google deive mount
from google.colab import derive
drive.mount("/content/drive")
  • 불러올 데이터 파일경로 지
DATA_PATH = "/content/drive/MyDrive/파일이름.확장자"
df = pd.read_csv(f"{DATA_PATH}titanic.csv")

데이터 보기

df.info()

수치형 데이터를 분석하기

  • 총합
df["fare"].sum()
  • 평균
df["fare"].mean()
  • 중앙값
df["fare"].median()
  • 분산
df["fare"].var()
  • 표준편차
df["fare"].std()
  • 분위수
df["fare"].quantile([ 0.25, 0.5, 0.75 ])

왜도( Skewness )

  • 데이터 분포의 비대칭도를 나타내는 통계량
  • 분포가 오른쪽으로 치우쳐저 있고 왼쪽으로 긴 꼬리를 가지는 경우 왜도는 음수
  • 분포가 왼쪽으로 치우쳐서 오른쪽으로 긴 꼬리를 가지는 경우 왜도는 양수
  • 정규 분포와 같이 좌우 대칭인 경우 왜도는 0에 가까워진다.
df["fare"].skew()

상관계수

  • 칼 피어슨(karl Pearson)이 개발한 상관계수
  • 두 개의 수치형 변수의 변화가 연관되는 정도
  • +1 ~ -1 사이의 값을 가짐
  • +1 의 가까울 수록 양의 상관관계
  • -1 의 가까울 수록 음의 상관관계
  • 0에 가까울 수록 상관관계x
cols = [ "survived", "age", "sibsp", "parch", "fare" ]
df[cols].corr()

범주형 데이터 분석하기

  • 고유값들 보기
df["embarked"].nunique() # 원핫인코딩
df["embarked"].unique()
  • 최빈값
df["embarked"].mode()
  • 범주별 개수보기
df["embarked"].value_counts()
df["embarked"].value_counts( normalize = True )
  • 범주형 관계보기
pd.crosstab( df["gender"], df["survived"], margins = True )

pd.crosstab( df["gender"], df["survived"], margins=True, normalize="index" ) # 비율로보기
반응형

'python' 카테고리의 다른 글

[python]파이썬 - numpy_차원  (0) 2023.02.10
[python]파이썬 - numpy  (0) 2023.02.10
[python]파이썬 - pandas  (0) 2023.01.31
[python]파이썬 - open API  (2) 2023.01.30
[python]파이썬 - pip와 가상환경  (0) 2023.01.26

댓글