SERi
EDA_범주형 변수 2 본문
≫ boxplot과 사분위수
사분위수 란?
사분위수는 데이터를 4등분 한 것
통계의 변량을 도수 분포로 정리하였을 때 적은 것으로부터 1/4, 1/2, 3/4 자리의 변량값
임의의 확률변수 축에서 확률분포를 4등분하는 값의 조합이다.
# boxplot 으로 align 별 coherence 의 기술통계 값 구하기
sns.boxplot(data=dots, x="align", y="coherence")
# groupby로 align 값에 따른 coherence의 기술통계 구하기
dots.groupby("align")["coherence"].describe()
≫ Boxplot
수치적 자료를 표현하는 그래프
자료로부터 얻어낸 통계량인 5가지 요약 수치(다섯 숫자 요약, five-number summary)를 가지고 그린다.
- 5가지 요약 수치란 최솟값, 제 1사분위, 제 2사분위, 제 3사분위, 최댓값을 일컫는다
≫ violinplot
# violinplot 그리기
plt.figure(figsize=(10,2)) # 표의크기 설정
sns.violinplot(data=dots[dots["align"] == "sacc"], x="coherence")
# 바이올린플롯은 kde를 마주보고 그림
≫ scatterplot
# scatterplot 으로 범주형 변수 그리기
sns.scatterplot(data=dots, x="align", y="time")
# 범주형 데이터를 그릴때 스케터플롯의 단점은 점이 겹칠수 있어 빈도수 알기가 어렵다
≫ stripplot
# stripplot
sns.stripplot(data=dots, x="align", y="time")
≫ swarmplot
# swarmplot
plt.figure(figsize=(7,4))
sns.swarmplot(data=dots, x="align", y="time")
# swarmplot
plt.figure(figsize=(10,4))
sns.swarmplot(data=dots, x="align", y="time", hue="coherence")
'AIS 7 > 자기주도학습_TIL' 카테고리의 다른 글
인공지능과 머신러닝 개요 (1) | 2022.11.21 |
---|---|
Amazon.com - Employee Access Challenge _ 전처리실습 (0) | 2022.11.17 |
도로 교통량 예측 데이터 전처리 도전 (0) | 2022.11.10 |
머신러닝 TIL (0) | 2022.11.03 |
EDA_범주형 변수 1 (0) | 2022.09.29 |
Comments