본문 바로가기
데이터분석/확률과 통계

변수들간의 관련성(상관관계) - 상관계수, 순위상관

by Jaeseok_Shim 2021. 1. 31.

키와 몸무게, 공부한 시간과 성적,  또는 판매 촉진비와 매출 간의 관계를 파악하려면 상관관계(상관계수)를 이용하여 알아볼 수 있다.

 

상관계수는 두 변수간 연관성을 알아보는 지표이다.

 

1. 피어슨의 상관계수(Correlation Coefficient)

 

상관계수는 -1 ~ 1사이의 값을 가지며 -1이나 1에 가까울수록 변수간 연관성이 높다. 반면에 0에 가까울수록 변수간의 연관성은 없다.

 

  • 상관계수(r) = 0
  • 변수간 연관성이 없음
  • ex. 키와 수입

 

r=0.1의 예

 

  • 상관계수(r) > 0
  • 양의 상관관계
  • 하나의 변수가 증가하면 다른 변수도 증가
  • 몸무게와 키, 수입과 지출

r=0.8의 예

만일 어느 학급의 키와 몸무게를 조사했는데, A학급에는 상관계수(r)=0.8, B학급에는 r=0.7이라면 A학급의 데이터가 키와 몸무게의 연관성이 크다는 것이다.

 

  • 상관계수(r) < 0
  • 음의 상관관계
  • 하나의 변수가 증가하면 다른 변수는 감소
  • ex. 실업률과 고용지표

r=-0.8의 예

상관계수를 구하는 공식은 아래와 같다.

 

2. 스피어만의 순위상관계수

순위상관계수는 데이터의 '값'이 아니라 '순위'에 의존한다. 

데이터 키(x)의 순위 몸무게(y)의 순위 키순위-키의 평균 몸무게순위-몸무게의 평균
A 1 2 -1.5 -0.5
B 2 1 -0.5 -1.5
C 3 4 0.5 1.5
D 4 3 1.5 0.5
평균 2.5 2.5 0 0

순위상관은 순위가 매겨진 변수를 가지고 피어슨 상관계수를 계산하기 때문에 피어슨 상관계수보다 이상치에 덜 민감한 특징이 있다.

 


 

상관관계가 인과관계를 의미하진 않는다

 

X, Y의 상관관계가 높다고해서 원인과 결과를 의미하진 않는다.

 

만일 '스타벅스와 집 가격의 상관관계(r)가 높다'는 결과가 나왔다고하면, 스타벅스로 인해 집가격이 높아졌는지, 부유한 곳에 스타벅스가 들어왔는지, 유동인구가 많아서 스타벅스도 생기고 집 가격도 올랐는지는 좀 더 따져봐야한다. 

 

통계학에서는 이런 교란변수, 잠복변수 등으로 변수 간의 인과관계를 규명하기도 하는데, 통계의 직접적 활용 측면에서는 상관관계보다는 인과관계를 해석하는 것이 중요하다.

댓글