[pypthon]파이썬 - pandas 를 이용한 eda

EDA

탐색적 데이터 분석
데이터 분석하고 결과를 도출하는 과정에 있어서 지속적 으로 해당 데이처레 대한 탐색과 이해를 기본적으로 가져야 한다는 의미

데이터 종류

수치형 데이터
- 연속형(데이터 속에 연속적으로 발생)
  - 일정 범위 안에서 어떤 값 도 취할수 있느 실수형 데이터( ex, 온도, 키, 운임료(소수점 으로 떨어질 때), 풍속 )
  - 이산형( 산건발생 횟수 )
    - 횟수 같은 정수형 데이터( ex, 사건에대한 발생 횟수, 방개수, 부모자식 수 )
범주형 데이터
- 가능한 범주안의 값만 취할 수 있는 데이터( ex, 성별, 전공, 장르, 영화평점, 직급 ) 순서형과 명목형이 있음

# pandas, numpy 호출
import pandas as pd
import numpy as np
# google deive mount
from google.colab import derive
drive.mount("/content/drive")

불러올 데이터 파일경로 지

DATA_PATH = "/content/drive/MyDrive/파일이름.확장자"

df = pd.read_csv(f"{DATA_PATH}titanic.csv")

데이터 보기

df.info()

수치형 데이터를 분석하기

총합

df["fare"].sum()

평균

df["fare"].mean()

중앙값

df["fare"].median()

분산

df["fare"].var()

표준편차

df["fare"].std()

분위수

df["fare"].quantile([ 0.25, 0.5, 0.75 ])

왜도( Skewness )

데이터 분포의 비대칭도를 나타내는 통계량
분포가 오른쪽으로 치우쳐저 있고 왼쪽으로 긴 꼬리를 가지는 경우 왜도는 음수
분포가 왼쪽으로 치우쳐서 오른쪽으로 긴 꼬리를 가지는 경우 왜도는 양수
정규 분포와 같이 좌우 대칭인 경우 왜도는 0에 가까워진다.

df["fare"].skew()

상관계수

칼 피어슨(karl Pearson)이 개발한 상관계수
두 개의 수치형 변수의 변화가 연관되는 정도
+1 ~ -1 사이의 값을 가짐
+1 의 가까울 수록 양의 상관관계
-1 의 가까울 수록 음의 상관관계
0에 가까울 수록 상관관계x

cols = [ "survived", "age", "sibsp", "parch", "fare" ]
df[cols].corr()

범주형 데이터 분석하기

고유값들 보기

df["embarked"].nunique() # 원핫인코딩

df["embarked"].unique()

최빈값

df["embarked"].mode()

범주별 개수보기

df["embarked"].value_counts()

df["embarked"].value_counts( normalize = True )

범주형 관계보기

pd.crosstab( df["gender"], df["survived"], margins = True )

pd.crosstab( df["gender"], df["survived"], margins=True, normalize="index" ) # 비율로보기

저작자표시 비영리 변경금지 (새창열림)

'python' 카테고리의 다른 글

[python]파이썬 - numpy_차원 (0)	2023.02.10
[python]파이썬 - numpy (0)	2023.02.10
[python]파이썬 - pandas (0)	2023.01.31
[python]파이썬 - open API (2)	2023.01.30
[python]파이썬 - pip와 가상환경 (0)	2023.01.26

꿀팁 블로그

[pypthon]파이썬 - pandas 를 이용한 eda

EDA

데이터 종류

데이터 보기

수치형 데이터를 분석하기

왜도( Skewness )

상관계수

범주형 데이터 분석하기

'python' 카테고리의 다른 글

댓글

티스토리툴바

[pypthon]파이썬 - pandas 를 이용한 eda

EDA

데이터 종류

데이터 보기

수치형 데이터를 분석하기

왜도( Skewness )

상관계수

범주형 데이터 분석하기

'python' 카테고리의 다른 글

관련글

댓글

티스토리툴바