퍼져있는 데이터들을 대표하는 하나의 값을 대표값이라고 하는데, 평균, 중앙값, 최빈값은 데이터를 설명하는 대표값들이다.
1. 평균(mean, average)
평균은 데이터의 총합을 갯수로 나눈 값이다. 아래 7명의 수학점수 데이터가 있다면 총합은 550, 평균은 550 / 7 = 78.57이다.
점수>
90 | 100 | 100 | 100 | 80 | 40 | 40 |
평균은 데이터의 중앙값과는 다르다. 예를 들면, 평균점수를 받은 사람이 중간 등수가 된다는 의미는 아니라는 것이다.
평균은 극단값에 영향을 많이 받는다. 예를 들어, 어느 집단의 평균연봉을 계산했는데 그 집단에 빌게이츠가 있다면 어떻게 될까? 빌게이츠 연봉으로 인해 전체평균이 올라가게 될 것이다.
2. 중앙값(median)
중앙값은 데이터들을 나열했을 때 중앙에 위치하는 값을 말한다.
점수>
90(중앙값) | 100 | 100 | 100 | 80 | 40 | 40 |
위 데이터의 평균은 78.57점이지만, 중앙값은 데이터의 서열(순서)대로 나열했을 때 중앙(4번째) 위치한 90점이 된다.
- 100(최대값) -> 100 -> 100 -> 90(중앙값) -> 80 -> 40 -> 40(최소값)
3. 최빈값(mode)
최빈값은 가장 흔한 값이다.
- 100점 : 3회 관측
- 90점 : 1회 관측
- 80점 : 1회 관측
- 40점 : 2회 관측
위 점수 데이터에서 가장 흔한 값은 3번 관측된 100이며, 데이터 분포도에서 최빈값은 꼭지점에 해당하는 값이 된다.
만일 작은 값이 많고 극단적으로 큰 값이 존재한다면, 아래와 같은 분포도가 될 것이다.
이 분포도에서 최빈값, 중앙값, 평균의 위치는 아래와 같다.
평균은 극단값에 영향을 많이 받기 때문에 해외 언론이나 자료에서 평균연봉, 평균주택가격 등을 설명하고자 할 때 평균 대신 중앙값으로 설명하는 경우도 꽤 있다고 한다.
'데이터분석 > 확률과 통계' 카테고리의 다른 글
변수들간의 관련성(상관관계) - 상관계수, 순위상관 (0) | 2021.01.31 |
---|---|
데이터의 산포(흩어짐)를 파악하는 지표 - 최대값, 최소값, 사분위수, 분산, 표준편차 (0) | 2021.01.11 |
상관관계, 상관계수 (0) | 2020.04.22 |
귀무가설과 대립가설 (0) | 2020.01.02 |
분산, 표준편차, 변동(CV)계수 (0) | 2020.01.01 |
댓글