데이터의 산포(흩어짐)를 파악하는 지표 - 최대값, 최소값, 사분위수, 분산, 표준편차
데이터의 산포(흩어짐)를 확인하는 지표로 최댓값, 최솟값, 사분위수, 분산, 표준편차가 있다. 참고로 데이터 범위는 데이터의 최대값에서 최솟값을 빼면 된다. 1. 사분위수(4분위수, quartile) 사분위수는 데이터를 정렬하고 4등분했을 때 각 경계에 해당하는 수치를 말한다. 데이터를 4등분 했을 때 각각의 위치를 파악할 수 있으며, 4분위수만으로 데이터가 좌(작은 쪽), 또는 우(큰 쪽)로 치우쳐있는지, 중앙에 집중되어있는지의 파악이 어느 정도 가능하다. 2. 분산(Variance) 분산을 구하기 위해서는 먼저 편차를 구해야한다. 편차는 데이터가 평균에서 얼마나 멀리 떨어져 있는가를 나타내는 수치로 관측값(Xi)에서 평균값(X)을 뺀 수이다. $$편차(d_i) = 관측값(X_{i}) - 평균값(\ov..
2021. 1. 11.