본문 바로가기
BigData/R

기계 학습 알고리즘 관련 R패키지 소개

by Tomining 2015. 4. 16.
아래 내용은 데이터 과학자 책 P.150에 소개된 내용을 발췌한 내용입니다.


기계 학습 알고리즘 관련 R 패키지 소개

  • 인공 신경망(Artificial Neural Networks) 패키지
    • nnet
      간단한 ANN. 기본 R에 포함되어 있다.
    • RSNNS
      Stuttgart Neural Network Simulator 를 위한 UI를 제공하기 좋은 패키지. ANN 의 함수를 배우는 데 훌륭한 도구이다.
  • 재귀 분할(Recursive Partitioning) 패키지
    • rpart
      "CART" 형의 의사결정 트리에 이상적이다. 기본 R 프로그램에 포함되어 있다.
    • tree
      다양한 의사결정 트리를 위한 패키지
    • Rweka
      잘 알려진 WEKA 도구 상자를 위한 인터페이스로 아주 다양한 기계 학습 프로그램을 포함하고 있다.
    • Cubist
      규칙 기반 모델(Rule-base Models)을 위한 좋은 패키지
    • C50
      분류 응용 프로그램에 사용하는 C5.0 유형 의사결정 트리를 위한 패키지
    • party
      재귀 분할 알고리즘을 위한 좋은 패키지
    • LogicReg
      로지스틱 회귀(Logistic Regression) 응용 프로그램을 위한 패키지
    • maptree
      의사결정 트리를 시각화하기 위한 패키지
  • 랜덤 포레스트(Random Forests, 의사결정 트리와 공동 작업하는 그룹) 패키지
    • randomForest
      회귀 응용 프로그램을 위한 랜덤 포레스트 알고리즘
    • ipred
      분류 응용 프로그램이나 통계학의 앙상블 등을 포함하는 랜덤 포레스트 프로그램의 완전한 패키지
    • varSelRF 와 Boruta
      별개의 두 가지 패키지로 변수나 특징 선택 응용 프로그램에 쓰이는 랜덤 포레스트에 초점을 맞춘 패키지
    • bigrf
      병렬 연산을 이용하는 커다란 데이터 집합을 위한 랜덤 포레스트
  • 규칙화된 축소 기법(Regularized and Shrinkage Methods) 패키지
    • lasso2 와 lars
      제한적인 회귀 모형을 위한 패키지
    • penalized
      lasso 와 Ridge 알고리즘의 다른 구현을 채택한 벌점(Penalized) 회귀 모형을 위한 패키지
    • ahaz
      lasso 벌점을 이용한 반-파라메트릭(Semi-Parametric) 모형을 제공하는 패키지
    • earth
      다변량 적응 회귀 스플라인(Multivariate Adaptive Regression Splines) 을 사용하는 프로그램을 가진 패키지
  • 부스팅(Boosting) 패키지
    • gbm
      다양한 그레이디언트 부스팅(Gradient Boosting) 방법을 포함하는 패키지
    • GAMBoost
      특히 일반화 가법 모형(Generalized Additive Models)을 우한 부스팅 방법에 전문화된 패키지
    • mboost
      일반 선형(Generalized Linear)과 가법(Addtive) 뿐만 아니라 비모수 모형(Nonparametric Models)으리 위한 부스팅 프레임워크를 포함하는 패키지
  • 서포트 벡터 머신(SVM: Support Vector Machines)과 커널 메서드(Kernel Methods) 패키지
    • e1071
      svm() 함수를 포함하는 패키지. 이함수는 LIBSVM 라이브러리의 인터페이스를 제공한다.
    • kernlab
      커널 기반 러닝(Kernel-Based Learning, SVM을 포함하는)을 위한 유연한 프레임워크를 구현한 패키지
    • rdetools
      커널 특징 공간(Kernel Feature Spaces)에서 연관 차원(Relevant Dimesion)의 추정을 위한 도구를 제공하는 패키지
  • 베이지안 메서드(Bayesian Methods) 패키지
    • BayesTree
      베이지안 가법 회귀 트리(BART : Bayesian Additve Regression Trees)에 기반을 둔 약분류기(Week Learner)를 병합하기 위한 몇 가지 방법을 구현한 패키지
    • tgp
      Bayesian CART 와 같은 다양한 모형에 기반한 회귀와 분류를 위한 다양한 처리과정을 포함한 패키지
  • 유전자 알고리즘(Genetic Algorithms)을 이용한 최적화 패키지
    • rgp 와 rgenoud
      유전자 알고리즘에 기반을 둔 최적화 프로그램을 포함하는 패키지
    • Rmalschains
      미미틱(Memetic) 알고리즘을 구현한 패키지
  • 연관규칙(Association Rules) 패키지
    • arules
      산재한 이진 데이터를 효과적으로 다루는 데이터 구조와 항목 집합에 기반을 둔 연관 규칙을 만드는 선험적(Apriori) 알고리즘과 에클라(Eclat) 알고리즘을 구현하는 인터페이스를 제공하는 패키지
  • 퍼지 규칙 기반 시스템(Fuzzy Rule-based Systems) 패키지
    • frbs
      회귀와 분류 응용 프로그램을 위한 퍼지 논리를 다양하게 구현한 패키지
  • 모델 선택과 확인(Model selection and validation) 패키지
    • e1071
      SVM을 제외하고, 이 패키지는 두 개의 함수를 가지고 있다. 이 함수들은 모형이 갖게 되는 오류 비율을 추정하는데 쓰인다.
    • svmpath
      SVM의 성능을 최적화하는 방법을 제공한다.ㅏ 파라미터 C에 대한 가장 적합한 상태를 찾아낸다.
    • ROCR
      ROC 분석과 다른 시각화 방법을 제공하는 패키지
    • caret
      파라미터 조율과 변수 중요도 측정을 포함한 예측 모형을 위한 다양한 함수를 포함하는 패키지