본문 바로가기
데이터분석/확률과 통계

데이터의 산포(흩어짐)를 파악하는 지표 - 최대값, 최소값, 사분위수, 분산, 표준편차

by Jaeseok_Shim 2021. 1. 11.

데이터의 산포(흩어짐)를 확인하는 지표로 최댓값, 최솟값, 사분위수, 분산, 표준편차가 있다. 참고로 데이터 범위는 데이터의 최대값에서 최솟값을 빼면 된다.

 

1. 사분위수(4분위수, quartile)

사분위수는 데이터를 정렬하고 4등분했을 때 각 경계에 해당하는 수치를 말한다.

 

데이터를 4등분 했을 때 각각의 위치를 파악할 수 있으며, 4분위수만으로 데이터가 좌(작은 쪽), 또는 우(큰 쪽)로 치우쳐있는지, 중앙에 집중되어있는지의 파악이 어느 정도 가능하다.

 

2. 분산(Variance)

분산을 구하기 위해서는 먼저 편차를 구해야한다. 편차는 데이터가 평균에서 얼마나 멀리 떨어져 있는가를 나타내는 수치로 관측값(Xi)에서 평균값(X)을 뺀 수이다.

 

$$편차(d_i) = 관측값(X_{i}) - 평균값(\overline{X})$$

 

편차는 마이너스 값이 존재하기 때문에 제곱할 필요가 있으며, 분산은 이 편차 제곱의 평균을 말한다.

 

$$분산(S^2) = \frac{1}{n} \sum(d_i)^2$$

 

1에서 10까지의 데이터가 있다면 총합은 55이며 평균은 10을 나눈 5.5이다. 각각 편차를 계산해보면 아래와 같다.

 

  • 1의 편차는 1-5.5=-4.5
  • 2의 편차는 2-5.5=-3.5
  • ...
  • 9의 편차는 9-5.5=3.5
  • 10의 편차는 10-5.5=4.5

분산은 1부터 10까지의 편차를 제곱한 평균값이다. 계산해보면 8.25이다.

 

3. 표준편차

분산은 값이 상당히 커질 수 있으므로 표준편차를 많이 사용한다. 표준편차는 분산에 루트를 씌워 구하며, 위에서 살펴본 1에서 10까지 데이터의 표준편차는 분산 8.25를 제곱근(루트)한 2.8722 임을 알 수 있다.

 

$$표준편차(S) = \sqrt{분산}$$

 

 

만일 표준편차 값이 3이라고 하면 데이터는 대략 평균에서 좌우 3 정도 흩어져있다고 볼 수 있다.

 


 

표준편차는 데이터가 얼마나 안정적인지 나타낼 수 있다.

예를 들어, A 주식가격의 표준편차가 B 주식가격의 표준편차보다 크다면, A 주식가격의 변동성이 더 크다(흩어진 정도, 산포)는 이야기이다. 표준편차가 크다는 것은 데이터가 불안정할 수 있다.

 

표준편차는 특정 데이터의 위치를 비교(평가)해볼 수 있다.

 

아래의 예를 보자. 국어, 영어 과목의 내 점수와 평균은 같지만 표준편차 값이 다르다. 어떤 점수가 상대적으로 더 좋은 점수일까?

과목 내 점수 학급평균 표준편차
국어 80점 70점 10
영어 80점 70점 5

 

표준편차가 5이면 데이터는 평균에서 대략 5 정도 좌우로 흩어져있다는 의미가 된다.

 

점수를 보면 국어, 영어 모두 평균보다 높은 점수이며, 국어는 평균 대비 표준편차만큼 잘했으나, 영어는 표준편차 이상으로 잘했다. 

 

 

 

표준편차보다 멀리 떨어져있다는 것은 더 좋은 점수 쪽으로 치우쳤다고 볼 수 있다. 따라서 영어가 상대적으로 더 높은 점수이다. 그리고 표준편차가 크다는 것은 변동성이 크다는 것이므로 점수의 격차 또한 크다고 볼 수 있다.

댓글