BigData66 기계 학습 알고리즘 관련 R패키지 소개 아래 내용은 데이터 과학자 책 P.150에 소개된 내용을 발췌한 내용입니다. 기계 학습 알고리즘 관련 R 패키지 소개 인공 신경망(Artificial Neural Networks) 패키지 nnet 간단한 ANN. 기본 R에 포함되어 있다. RSNNS Stuttgart Neural Network Simulator 를 위한 UI를 제공하기 좋은 패키지. ANN 의 함수를 배우는 데 훌륭한 도구이다. 재귀 분할(Recursive Partitioning) 패키지 rpart "CART" 형의 의사결정 트리에 이상적이다. 기본 R 프로그램에 포함되어 있다. tree 다양한 의사결정 트리를 위한 패키지 Rweka 잘 알려진 WEKA 도구 상자를 위한 인터페이스로 아주 다양한 기계 학습 프로그램을 포함하고 있다. Cu.. 2015. 4. 16. flume multi sink 설정하기 단일 싱크 구조는 아래와 같다. 하나의 source와 channel, sink를 가지는 구조이다. 위 그림에서는 Flume을 이용하여 MongoDB에 저장하는 구조이다. 여기서 하나의 Event에 대해 2군데 데이터를 전송하려면 어떻게 해야할까? 예를 들어 하나의 Event를 보냈을 때, MongoDB에도 저장하고 HDFS 에도 저장하려고 한다. 2개의 sink를 연결해 볼 수 있다. 이 경우에는 Event 정보가 MongoDB나 HDFS 둘 중에 하나만 저장이 된다. 어떤 Sink가 선택이 되는지는 알 수 없으나, 설정상 나중에 연결된 sink 부터 전달되는 듯 하다. 테스트를 해보면 위 경우 HDFS Sink를 먼저 시도한다. 이 때 HDFS sink에 실패한다면 Mongo Sink를 시도한다 이는 .. 2015. 4. 14. Sqoop의 개념 Sqoop이란? Apache Sqoop is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases. Apache Sqoop은 SQL-to-Hadoop 의 약자로 Apache Hadoop과 정형화된 Datasource, 예를 들어, Oracle 같은 RDB 간의 대량 데이터를 전송하기 위해 만들어진 툴이다. Oracle DB에 저장된 대량의 데이터를 HDFS 로 옮겨 분석을 하고자 할 때 쉽게 데이터를 Import 할 수 있으며, 반대로 분석 결과(HDFS)를 RDB로 Export 할 수 있다. 또한 Hive, Pig, Hba.. 2015. 4. 10. 확률분포 > 포아송분포 Poisson Distribution 포아송 분포 1. 포아송 분포 (Poisson Distribution) ㅇ 근대확률론의 기초를 확립한 사람중의 한사람인 수학자 포아송(1781~1840)이 제시한 확률적 특성을 따르는 확률분포 ㅇ 한정된 특정 시간 또는 공간 내에서 사건 발생 수가 따르는 확률분포 - 주로 시간적이나 공간적으로 발생빈도가 낮은 희귀한 사건의 수 등이 잘 설명됨 2. 포아송 분포 특징 ㅇ 표기 : X ~ Poi(λ) - 모수 λ인 포아송 분포 ㅇ 확률질량함수 - x는 0,1,2,3, ...등 사건 발생 수 - λ는 일정 단위 시간 또는 공간 당 평균적으로 발생하는 사건 횟수 ㅇ 기대값 ㅇ 분산 ㅇ 포아송 분포는 이항분포(Binomial Distribution)의 특수한 경우(극한 분포).. 2015. 3. 17. 이전 1 ··· 10 11 12 13 14 15 16 17 다음