본문 바로가기

분산2

데이터의 산포(흩어짐)를 파악하는 지표 - 최대값, 최소값, 사분위수, 분산, 표준편차 데이터의 산포(흩어짐)를 확인하는 지표로 최댓값, 최솟값, 사분위수, 분산, 표준편차가 있다. 참고로 데이터 범위는 데이터의 최대값에서 최솟값을 빼면 된다. 1. 사분위수(4분위수, quartile) 사분위수는 데이터를 정렬하고 4등분했을 때 각 경계에 해당하는 수치를 말한다. 데이터를 4등분 했을 때 각각의 위치를 파악할 수 있으며, 4분위수만으로 데이터가 좌(작은 쪽), 또는 우(큰 쪽)로 치우쳐있는지, 중앙에 집중되어있는지의 파악이 어느 정도 가능하다. 2. 분산(Variance) 분산을 구하기 위해서는 먼저 편차를 구해야한다. 편차는 데이터가 평균에서 얼마나 멀리 떨어져 있는가를 나타내는 수치로 관측값(Xi)에서 평균값(X)을 뺀 수이다. $$편차(d_i) = 관측값(X_{i}) - 평균값(\ov.. 2021. 1. 11.
분산, 표준편차, 변동(CV)계수 분산, 표준편차는 데이터의 산포(흩어짐)를 확인하는 통계량이며, 변동계수(CV지수, 변이계수)는 평균이나 단위가 다른 두 개 이상 자료를 비교할 때 쓰입니다. 1. 분산, 표준편차 분산과 표준편차는 데이터가 얼마나 흩어져있는지 추정하는 통계량입니다. 분산과 표준편차를 구하기 위해서는 먼저 편차를 구해야합니다. 편차(d)는 관측값(Xi)에서 평균값(X)을 뺀 수입니다. $$편차(d_i) = 관측값(X_{i}) - 평균값(\overline{X})$$ 분산은 이 편차제곱의 평균값입니다. 편차를 제곱하면 통계량이 커지고 마이너스 값이 없어집니다. $$분산(S^2) = \frac{1}{n} \sum(d_i)^2$$ 표준편차는 분산에 루트를 씌워구합니다. 분산은 값이 상당히 커질 수 있으므로 표준편차를 많이 사용합.. 2020. 1. 1.