본문 바로가기

데이터분석8

변수들간의 관련성(상관관계) - 상관계수, 순위상관 키와 몸무게, 공부한 시간과 성적, 또는 판매 촉진비와 매출 간의 관계를 파악하려면 상관관계(상관계수)를 이용하여 알아볼 수 있다. 상관계수는 두 변수간 연관성을 알아보는 지표이다. 1. 피어슨의 상관계수(Correlation Coefficient) 상관계수는 -1 ~ 1사이의 값을 가지며 -1이나 1에 가까울수록 변수간 연관성이 높다. 반면에 0에 가까울수록 변수간의 연관성은 없다. 상관계수(r) = 0 변수간 연관성이 없음 ex. 키와 수입 상관계수(r) > 0 양의 상관관계 하나의 변수가 증가하면 다른 변수도 증가 몸무게와 키, 수입과 지출 만일 어느 학급의 키와 몸무게를 조사했는데, A학급에는 상관계수(r)=0.8, B학급에는 r=0.7이라면 A학급의 데이터가 키와 몸무게의 연관성이 크다는 것이다.. 2021. 1. 31.
데이터의 산포(흩어짐)를 파악하는 지표 - 최대값, 최소값, 사분위수, 분산, 표준편차 데이터의 산포(흩어짐)를 확인하는 지표로 최댓값, 최솟값, 사분위수, 분산, 표준편차가 있다. 참고로 데이터 범위는 데이터의 최대값에서 최솟값을 빼면 된다. 1. 사분위수(4분위수, quartile) 사분위수는 데이터를 정렬하고 4등분했을 때 각 경계에 해당하는 수치를 말한다. 데이터를 4등분 했을 때 각각의 위치를 파악할 수 있으며, 4분위수만으로 데이터가 좌(작은 쪽), 또는 우(큰 쪽)로 치우쳐있는지, 중앙에 집중되어있는지의 파악이 어느 정도 가능하다. 2. 분산(Variance) 분산을 구하기 위해서는 먼저 편차를 구해야한다. 편차는 데이터가 평균에서 얼마나 멀리 떨어져 있는가를 나타내는 수치로 관측값(Xi)에서 평균값(X)을 뺀 수이다. $$편차(d_i) = 관측값(X_{i}) - 평균값(\ov.. 2021. 1. 11.
데이터를 설명하는 대표값 - 평균, 중앙값, 최빈값 퍼져있는 데이터들을 대표하는 하나의 값을 대표값이라고 하는데, 평균, 중앙값, 최빈값은 데이터를 설명하는 대표값들이다. 1. 평균(mean, average) 평균은 데이터의 총합을 갯수로 나눈 값이다. 아래 7명의 수학점수 데이터가 있다면 총합은 550, 평균은 550 / 7 = 78.57이다. 점수> 90 100 100 100 80 40 40 평균은 데이터의 중앙값과는 다르다. 예를 들면, 평균점수를 받은 사람이 중간 등수가 된다는 의미는 아니라는 것이다. 평균은 극단값에 영향을 많이 받는다. 예를 들어, 어느 집단의 평균연봉을 계산했는데 그 집단에 빌게이츠가 있다면 어떻게 될까? 빌게이츠 연봉으로 인해 전체평균이 올라가게 될 것이다. 2. 중앙값(median) 중앙값은 데이터들을 나열했을 때 중앙에 .. 2021. 1. 9.
상관관계, 상관계수 1. 상관관계 분석(Correlation Analysis)이란? 상관계수(Correlation)는 두 변수간 연관성을 알아보는 지표이다. 상관계수로 키와 몸무게, 공부한 시간과 성적과의 관계나 판매 촉진비와 매출 간의 관계를 파악할 수 있다. 상관계수 중에는 피어슨(Pearson) 상관계수가 가장 많이 알려져 있다. 피어슨 상관계수는 -1.00 ~ 1.00 사이의 값을 가지며 -1.00이나 1.00에 가까울수록 변수 간 연관성이 높다고 볼 수 있으나, 인과관계를 이야기하는 것이 아니니 주의해야한다. 예를 들어, 경찰서와의 거리와 범죄율과는 상관관계가 높을 수 있는데 경찰서가 많아서 범죄율이 낮을 수는 있지만, 범죄율이 낮아서 경찰서가 많다는 것은 이상한 논리이다. 그리고 통화량과 물가 간의 상관관계가 높.. 2020. 4. 22.
귀무가설과 대립가설 통계학에서 가설검정시 귀무가설이 기각되면 대립가설을 채택된다. 여기서 귀무가설은 뭐고 대립가설은 무엇일까? 그리고 왜 귀무가설을 기각하여 대립가설을 채택하는 방식으로 검정하는 것일까? 1. 통계학에서는 참이라고 생각하는 가설을 검증하지 않는다. 귀무가설(歸無假說, null hypothesis)은 미리 맞지않을 것을 예상하고 세우는 가설이다. 귀무(歸無)에서 歸의 한자 의미는 '돌아가다 돌려보내다'의 '귀'이며, '無'는 없을 '무'이다. 즉 다시 없던 것으로 돌려보낼 가설이라고 이해하면 되겠다. 예를 들어 '신약이 효과가 있는가'를 검증한다면, 귀무가설은 '신약이 효과가 없다'라는 가설이고, 대립가설은 '신약이 효과는 있다'는 가설이다. 신약이 효과가 있는가? 귀무가설 : 신약이 효과가 없다 대립가설 :.. 2020. 1. 2.
분산, 표준편차, 변동(CV)계수 분산, 표준편차는 데이터의 산포(흩어짐)를 확인하는 통계량이며, 변동계수(CV지수, 변이계수)는 평균이나 단위가 다른 두 개 이상 자료를 비교할 때 쓰입니다. 1. 분산, 표준편차 분산과 표준편차는 데이터가 얼마나 흩어져있는지 추정하는 통계량입니다. 분산과 표준편차를 구하기 위해서는 먼저 편차를 구해야합니다. 편차(d)는 관측값(Xi)에서 평균값(X)을 뺀 수입니다. $$편차(d_i) = 관측값(X_{i}) - 평균값(\overline{X})$$ 분산은 이 편차제곱의 평균값입니다. 편차를 제곱하면 통계량이 커지고 마이너스 값이 없어집니다. $$분산(S^2) = \frac{1}{n} \sum(d_i)^2$$ 표준편차는 분산에 루트를 씌워구합니다. 분산은 값이 상당히 커질 수 있으므로 표준편차를 많이 사용합.. 2020. 1. 1.
시계열 분석 - 안정(정상) 시계열로 변환 지난 포스팅에서 시계열에 대해서 알아보았습니다. 2019/12/26 - [데이터 분석] - 시계열 분석 - 시계열 데이터란? 시계열 분석 - 시계열 데이터란? 1. 시계열 데이터 시계열 데이터는 '시간에 따라 관측된 자료'로 기후 데이터, 주가지수 등이 시간에 따라 변하는 시계열 데이터입니다. 시계열은 안정(stationary) 시계열과 불안정(non-stationary) 시계열 두.. domini21.tistory.com 이번 포스팅에서는 불안정 시계열을 안정 시계열로 변환하는 방법에 대해 알아보겠습니다. 로그(log) 변환 차분(diff) 파이썬 Random 함수를 이용해 시계열 자료를 만들고 증가추세를 임의 생성하였습니다. import numpy as np import pandas as pd imp.. 2020. 1. 1.
시계열 분석 - 시계열 데이터란? 1. 시계열 데이터 시계열 데이터는 '시간에 따라 관측된 자료'로 기후 데이터, 주가지수 등이 시계열 데이터입니다. 시계열 데이터는 데이터의 중심값과 산포(흩어진 정도)를 확인합니다. 히스토그램, 확률밀도함수를 그려서 확인 할 수 있으며, 파이썬에서는 Pandas의 describe() 함수로도 확인이 가능합니다. 데이터의 산포는 중심으로부터 어느정도 흩어져있는지 파악하는 것으로 분산, 표준편차, 사분위수로 확인합니다. 분산 표준편차 사분위수 시계열의 중심척도를 알아볼 수 있는 요소로는 평균, 중앙값, 최빈값 등이 있습니다. 평균(average)은 데이터 합의 중심을, 중앙값(mean)은 크기 순으로 나열했을 때 중앙 위치의 값을 나타냅니다. 평균 중앙값 최빈값 시계열은 안정(stationary) 시계열과.. 2019. 12. 26.