Notice
Recent Posts
Recent Comments
Link
«   2025/07   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

SERi

EDA_범주형 변수 2 본문

AIS 7/자기주도학습_TIL

EDA_범주형 변수 2

링다링 2022. 9. 29. 17:15

≫ boxplot과 사분위수

사분위수 란?

사분위수는 데이터를 4등분 한 것

통계의 변량을 도수 분포로 정리하였을 때 적은 것으로부터 1/4, 1/2, 3/4 자리의 변량값

임의의 확률변수 축에서 확률분포를 4등분하는 값의 조합이다.

# boxplot 으로 align 별 coherence 의 기술통계 값 구하기
sns.boxplot(data=dots, x="align", y="coherence")

# groupby로 align 값에 따른 coherence의 기술통계 구하기
dots.groupby("align")["coherence"].describe()

 

≫ Boxplot 

수치적 자료를 표현하는 그래프

자료로부터 얻어낸 통계량인 5가지 요약 수치(다섯 숫자 요약, five-number summary)를 가지고 그린다.
- 5가지 요약 수치란 최솟값, 제 1사분위, 제 2사분위, 제 3사분위, 최댓값을 일컫는다

≫ violinplot

# violinplot 그리기
plt.figure(figsize=(10,2)) # 표의크기 설정
sns.violinplot(data=dots[dots["align"] == "sacc"], x="coherence")
# 바이올린플롯은 kde를 마주보고 그림

≫ scatterplot

# scatterplot 으로 범주형 변수 그리기
sns.scatterplot(data=dots, x="align", y="time")
# 범주형 데이터를 그릴때 스케터플롯의 단점은 점이 겹칠수 있어 빈도수 알기가 어렵다

≫ stripplot

# stripplot
sns.stripplot(data=dots, x="align", y="time")

swarmplot

# swarmplot
plt.figure(figsize=(7,4))
sns.swarmplot(data=dots, x="align", y="time")

# swarmplot
plt.figure(figsize=(10,4))
sns.swarmplot(data=dots, x="align", y="time", hue="coherence")

 

Comments