Python8 상관관계, 상관계수 1. 상관관계 분석(Correlation Analysis)이란? 상관계수(Correlation)는 두 변수간 연관성을 알아보는 지표이다. 상관계수로 키와 몸무게, 공부한 시간과 성적과의 관계나 판매 촉진비와 매출 간의 관계를 파악할 수 있다. 상관계수 중에는 피어슨(Pearson) 상관계수가 가장 많이 알려져 있다. 피어슨 상관계수는 -1.00 ~ 1.00 사이의 값을 가지며 -1.00이나 1.00에 가까울수록 변수 간 연관성이 높다고 볼 수 있으나, 인과관계를 이야기하는 것이 아니니 주의해야한다. 예를 들어, 경찰서와의 거리와 범죄율과는 상관관계가 높을 수 있는데 경찰서가 많아서 범죄율이 낮을 수는 있지만, 범죄율이 낮아서 경찰서가 많다는 것은 이상한 논리이다. 그리고 통화량과 물가 간의 상관관계가 높.. 2020. 4. 22. 파이썬에서 텍스트 파일 읽고 쓰기 파이썬에서 파일을 읽고 쓰는 방법은 다양하다. open() 함수를 이용 Numpy 패키지의 loadtxt(), writetxt() 이용 Pandas 패키지의 read_csv(), to_csv() 이용 데이터 분석을 위해서는 csv 파일을 이용하는 경우 pandas를 이용하고 텍스트 파일인 경우 open() 함수를 이용하면 좋을 것이다. 여기서는 open() 함수를 이용한 텍스트 파일(txt)을 읽고 쓰는 것을 정리한다. 1. 파일 쓰기 open() 함수을 이용하여 파일을 읽고 쓸 수 있다. open() 함수가 궁금하면 아래처럼 함수이름에 물음표(?)를 이용하면 함수의 프로토타입(Prototype, Docstring)을 확인해보자. open() 함수에서 mode='w'로 두어 파일을 생성하고 write().. 2020. 4. 21. scikit-learn와 statsmodels 파이썬으로 회귀분석, 시계열 분석 등의 데이터 분석을 위해서는 아래 두가지 패키지를 살펴봐야 한다. 1. scikit-learn https://scikit-learn.org/stable/ scikit-learn: machine learning in Python — scikit-learn 0.22.2 documentation Model selection Comparing, validating and choosing parameters and models. Applications: Improved accuracy via parameter tuning Algorithms: grid search, cross validation, metrics, and more... scikit-learn.org 데이터 분석을 .. 2020. 4. 13. 파이썬 문자열 포매팅(formatting) 파이썬 문자열 포매팅은 크게 두가지로 나눌 수 있다. % 이용 format() 이용 1. 서식 지정자 % 이용 방법 서식지정자라고 하는 %s, %d, %f 는 파이썬2에서 사용하던 방식이다. 최근까지도 많이 사용되고 있지만 개인적으로는 format() 함수를 이용하길 권한다. 하지만 예전 소스를 보다보면 많이 볼 수도 있으니 공부해두는 것이 좋겠다. 사용 방법은 % 뒤에 s, d, f 를 붙혀서 사용한다. %s : 문자형(String) 서식 %d : 숫자형(Decimal) 서식 %f : 소수형(Float) 서식 s_name = 'My name is %s' % '홍길동' print(s_name) s_age = 'My age is %d' % 20 print(s_age) s_score = 'My Score i.. 2020. 4. 6. 분산, 표준편차, 변동(CV)계수 분산, 표준편차는 데이터의 산포(흩어짐)를 확인하는 통계량이며, 변동계수(CV지수, 변이계수)는 평균이나 단위가 다른 두 개 이상 자료를 비교할 때 쓰입니다. 1. 분산, 표준편차 분산과 표준편차는 데이터가 얼마나 흩어져있는지 추정하는 통계량입니다. 분산과 표준편차를 구하기 위해서는 먼저 편차를 구해야합니다. 편차(d)는 관측값(Xi)에서 평균값(X)을 뺀 수입니다. $$편차(d_i) = 관측값(X_{i}) - 평균값(\overline{X})$$ 분산은 이 편차제곱의 평균값입니다. 편차를 제곱하면 통계량이 커지고 마이너스 값이 없어집니다. $$분산(S^2) = \frac{1}{n} \sum(d_i)^2$$ 표준편차는 분산에 루트를 씌워구합니다. 분산은 값이 상당히 커질 수 있으므로 표준편차를 많이 사용합.. 2020. 1. 1. 시계열 분석 - 안정(정상) 시계열로 변환 지난 포스팅에서 시계열에 대해서 알아보았습니다. 2019/12/26 - [데이터 분석] - 시계열 분석 - 시계열 데이터란? 시계열 분석 - 시계열 데이터란? 1. 시계열 데이터 시계열 데이터는 '시간에 따라 관측된 자료'로 기후 데이터, 주가지수 등이 시간에 따라 변하는 시계열 데이터입니다. 시계열은 안정(stationary) 시계열과 불안정(non-stationary) 시계열 두.. domini21.tistory.com 이번 포스팅에서는 불안정 시계열을 안정 시계열로 변환하는 방법에 대해 알아보겠습니다. 로그(log) 변환 차분(diff) 파이썬 Random 함수를 이용해 시계열 자료를 만들고 증가추세를 임의 생성하였습니다. import numpy as np import pandas as pd imp.. 2020. 1. 1. 윈도우 10에 파이썬 설치하기 윈도우 10에 파이썬 설치하기파이썬 다운로드 사이트에 접속하여 설치파일을 다운로드 받습니다. https://www.python.org/downloads/ 저는 텐서플로우를 사용하기 위해 파이썬을 설치하려고 합니다. 텐서플로의 경우 사이트 (https://www.tensorflow.org/install/pip?hl=ko)에서 확인한 결과 현재 파이썬 3.6까지만 지원되네요. 그래서 3.6을 설치하겠습니다. Python 3.6.0 버전을 클릭하시고 다음페이지에서 executable installer를 다운로드하여 설치하시면 됩니다. Install Now를 선택해도 되지만 저의 경우 설치경로 변경을 위해서 Customize installation을 선택하였습니다. 그리고 파이썬 Path 설정을 위해서 Add .. 2018. 10. 3. 사이킷런 (scikit-learn) 사이킷런(scikit-learn)?사이킷런(scikit-learn)은 파이썬 라이브러리이자 오픈소스 커뮤니티이며 프로젝트입니다. 데이터마이닝, 데이터분석, 머신러닝을 위한 도구를 제공하고 있으며 NumPy, SciPy, matplotlib을 포함하고 있습니다. http://scikit-learn.org/ 오픈소스이며 BSD license로 누구나 자유롭게 사용하고 배포할 수 있습니다. 2018. 10. 1. 이전 1 다음