분산, 표준편차는 데이터의 산포(흩어짐)를 확인하는 통계량이며,
변동계수(CV지수, 변이계수)는 평균이나 단위가 다른 두 개 이상 자료를 비교할 때 쓰입니다.
1. 분산, 표준편차
분산과 표준편차는 데이터가 얼마나 흩어져있는지 추정하는 통계량입니다. 분산과 표준편차를 구하기 위해서는 먼저 편차를 구해야합니다.
편차(d)는 관측값(Xi)에서 평균값(X)을 뺀 수입니다.
분산은 이 편차제곱의 평균값입니다. 편차를 제곱하면 통계량이 커지고 마이너스 값이 없어집니다.
표준편차는 분산에 루트를 씌워구합니다. 분산은 값이 상당히 커질 수 있으므로 표준편차를 많이 사용합니다.
파이썬으로 평균, 표준편차, 분산은 Numpy를 이용하여 쉽게 구할 수 있습니다.
import numpy as np
list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
print('평균:', np.mean(list))
print('표준편차:', np.var(list))
print('분산:', np.std(list))
평균: 5.5
표준편차: 8.25
분산: 2.8722813232690143
2. 변동 계수(CV, Coefficient of Variation, 변동 지수)
변동계수(CV)는 표준편차를 평균으로 나눈 것이며, 두 그룹에서 가지고 있는 데이터의 흩어진 정도를 비교하는 경우에 사용합니다.
예를들면, 학생 A, B의 3년간 성적데이터가 있는데 A학생의 성적 변동계수는 0.2 이고 B학생의 성적 변동계수는 0.8이라고 하면 A학생의 성적 변동은 작은데 반해, B학생의 변동 폭은 크다는 의미입니다.
따라서 변동계수가 작은 그룹의 데이터가 더 안정적이라고 볼 수 있습니다.
또한 변동계수는 데이터 크기와 관계없이 비교가 가능합니다. 예를 들어, 달러와 원화의 기준(데이터 크기)은 다릅니다. 1달러에 1,200원이면 원화가 1,200배 크다는 것이며, 값이 크면 변동폭도 더 클 것입니다. 변동계수는 이와 같이 데이터 크기가 서로 다른 경우에도 비교가 가능합니다.
파이썬으로 변동계수는 아래와 같이 구할 수 있습니다.
import numpy as np
list_a = [1, 2, 3, 4, 5]
list_b = [0, 2, 4, 8, 16]
cv1 = np.std(list_a)/np.mean(list_a)
cv2 = np.std(list_b)/np.mean(list_b)
print('list_a의 CV계수 : {}'.format(np.round(cv1, 3))) # list_a의 CV계수 : 0.471
print('list_b의 CV계수 : {}'.format(np.round(cv2, 3))) # list_b의 CV계수 : 0.943
list_a의 CV계수 : 0.471
list_b의 CV계수 : 0.943
'데이터분석 > 확률과 통계' 카테고리의 다른 글
변수들간의 관련성(상관관계) - 상관계수, 순위상관 (0) | 2021.01.31 |
---|---|
데이터의 산포(흩어짐)를 파악하는 지표 - 최대값, 최소값, 사분위수, 분산, 표준편차 (0) | 2021.01.11 |
데이터를 설명하는 대표값 - 평균, 중앙값, 최빈값 (0) | 2021.01.09 |
상관관계, 상관계수 (0) | 2020.04.22 |
귀무가설과 대립가설 (0) | 2020.01.02 |
댓글