본문 바로가기
데이터분석/확률과 통계

데이터를 설명하는 대표값 - 평균, 중앙값, 최빈값

by Jaeseok_Shim 2021. 1. 9.

퍼져있는 데이터들을 대표하는 하나의 값을 대표값이라고 하는데, 평균, 중앙값, 최빈값은 데이터를 설명하는 대표값들이다. 

 

1. 평균(mean, average)

 

평균은 데이터의 총합을 갯수로 나눈 값이다. 아래 7명의 수학점수 데이터가 있다면 총합은 550, 평균은 550 / 7 = 78.57이다. 

 

점수>

90 100 100 100 80 40 40

평균은 데이터의 중앙값과는 다르다. 예를 들면, 평균점수를 받은 사람이 중간 등수가 된다는 의미는 아니라는 것이다.

 

평균은 극단값에 영향을 많이 받는다. 예를 들어, 어느 집단의 평균연봉을 계산했는데 그 집단에 빌게이츠가 있다면 어떻게 될까? 빌게이츠 연봉으로 인해 전체평균이 올라가게 될 것이다. 

 

2. 중앙값(median)

 

중앙값은 데이터들을 나열했을 때 중앙에 위치하는 값을 말한다.

 

점수>

90(중앙값) 100 100 100 80 40 40

위 데이터의 평균은 78.57점이지만, 중앙값은 데이터의 서열(순서)대로 나열했을 때 중앙(4번째) 위치한 90점이 된다. 

 

  • 100(최대값) -> 100 -> 100 -> 90(중앙값) -> 80 -> 40 -> 40(최소값)

 

3. 최빈값(mode)

 

최빈값은 가장 흔한 값이다. 

 

  • 100점 : 3회 관측
  • 90점 : 1회 관측
  • 80점 : 1회 관측
  • 40점 : 2회 관측

위 점수 데이터에서 가장 흔한 값은 3번 관측된 100이며, 데이터 분포도에서 최빈값은 꼭지점에 해당하는 값이 된다. 

 


 

만일 작은 값이 많고 극단적으로 큰 값이 존재한다면, 아래와 같은 분포도가 될 것이다.

이 분포도에서 최빈값, 중앙값, 평균의 위치는 아래와 같다.

 

 

 

 
평균은 극단값에 영향을 많이 받기 때문에 해외 언론이나 자료에서 평균연봉, 평균주택가격 등을 설명하고자 할 때 평균 대신 중앙값으로 설명하는 경우도 꽤 있다고 한다. 

댓글