본문 바로가기
인공지능(AI) 개발/Python

scikit-learn와 statsmodels

by Jaeseok_Shim 2020. 4. 13.

파이썬으로 회귀분석, 시계열 분석 등의 데이터 분석을 위해서는 아래 두가지 패키지를 살펴봐야 한다.

1. scikit-learn

https://scikit-learn.org/stable/

 

scikit-learn: machine learning in Python — scikit-learn 0.22.2 documentation

Model selection Comparing, validating and choosing parameters and models. Applications: Improved accuracy via parameter tuning Algorithms: grid search, cross validation, metrics, and more...

scikit-learn.org

 

데이터 분석을 위해 가장 많이 사용하는 파이썬 패키지는 사이킷런(scikit-learn)일 것이다. 

사이킷런은 범용 머신러닝 도구이자 통계관련 함수를 제공하는 패키지이다. 아카콘다(Anaconda)를 설치하면 기본적으로 설치된다.

 

사이킷런 하위모듈로는 분류(Classification), 회귀(Regression), 클러스터링(Clustering), 차원축소(Dimensionality Reduction), 모델선택(Model Selection), 데이터 전처리(Data Preprocessing)가 있으며, 전통적인 통계분석 패키지라기 보다는 머신러닝과 딥러닝를 위한 도구로 많이 사용된다.

2. statsmodels

https://www.statsmodels.org/stable/index.html

 

Introduction — statsmodels

statsmodels is a Python module that provides classes and functions for the estimation of many different statistical models, as well as for conducting statistical tests, and statistical data exploration. An extensive list of result statistics are available

www.statsmodels.org

파이썬 통계분석 패키지이다. 시계열 분석을 위한 ARIMA, VAR 등을 쉽게 사용할 수 있다.

사이킷런과 비교하면 statsmodel은 보다 통계적 모형 개발이나 통계추론에 더 적합한 패키지라고 볼 수 있다.

개발하신 분들이 R을 주로 사용하신 분들이라 R과 비슷한 출력결과가 많다고 한다.

R을 사용하신 분이라면 더욱 친근할 수 있겠다.

댓글