키와 몸무게, 공부한 시간과 성적, 또는 판매 촉진비와 매출 간의 관계를 파악하려면 상관관계(상관계수)를 이용하여 알아볼 수 있다.
상관계수는 두 변수간 연관성을 알아보는 지표이다.
1. 피어슨의 상관계수(Correlation Coefficient)
상관계수는 -1 ~ 1사이의 값을 가지며 -1이나 1에 가까울수록 변수간 연관성이 높다. 반면에 0에 가까울수록 변수간의 연관성은 없다.
- 상관계수(r) = 0
- 변수간 연관성이 없음
- ex. 키와 수입
- 상관계수(r) > 0
- 양의 상관관계
- 하나의 변수가 증가하면 다른 변수도 증가
- 몸무게와 키, 수입과 지출
만일 어느 학급의 키와 몸무게를 조사했는데, A학급에는 상관계수(r)=0.8, B학급에는 r=0.7이라면 A학급의 데이터가 키와 몸무게의 연관성이 크다는 것이다.
- 상관계수(r) < 0
- 음의 상관관계
- 하나의 변수가 증가하면 다른 변수는 감소
- ex. 실업률과 고용지표
상관계수를 구하는 공식은 아래와 같다.
2. 스피어만의 순위상관계수
순위상관계수는 데이터의 '값'이 아니라 '순위'에 의존한다.
데이터 | 키(x)의 순위 | 몸무게(y)의 순위 | 키순위-키의 평균 | 몸무게순위-몸무게의 평균 |
A | 1 | 2 | -1.5 | -0.5 |
B | 2 | 1 | -0.5 | -1.5 |
C | 3 | 4 | 0.5 | 1.5 |
D | 4 | 3 | 1.5 | 0.5 |
평균 | 2.5 | 2.5 | 0 | 0 |
순위상관은 순위가 매겨진 변수를 가지고 피어슨 상관계수를 계산하기 때문에 피어슨 상관계수보다 이상치에 덜 민감한 특징이 있다.
상관관계가 인과관계를 의미하진 않는다
X, Y의 상관관계가 높다고해서 원인과 결과를 의미하진 않는다.
만일 '스타벅스와 집 가격의 상관관계(r)가 높다'는 결과가 나왔다고하면, 스타벅스로 인해 집가격이 높아졌는지, 부유한 곳에 스타벅스가 들어왔는지, 유동인구가 많아서 스타벅스도 생기고 집 가격도 올랐는지는 좀 더 따져봐야한다.
통계학에서는 이런 교란변수, 잠복변수 등으로 변수 간의 인과관계를 규명하기도 하는데, 통계의 직접적 활용 측면에서는 상관관계보다는 인과관계를 해석하는 것이 중요하다.
'데이터분석 > 확률과 통계' 카테고리의 다른 글
데이터의 산포(흩어짐)를 파악하는 지표 - 최대값, 최소값, 사분위수, 분산, 표준편차 (0) | 2021.01.11 |
---|---|
데이터를 설명하는 대표값 - 평균, 중앙값, 최빈값 (0) | 2021.01.09 |
상관관계, 상관계수 (0) | 2020.04.22 |
귀무가설과 대립가설 (0) | 2020.01.02 |
분산, 표준편차, 변동(CV)계수 (0) | 2020.01.01 |
댓글