네이버 블로그에서 퍼 온 글입니다. 유클리드 거리 (Euclidean distance) 표준화 거리 (statistical distance) , D = 마할라노비스 (Mahalanobis) 거리 , S = 체비셰프 (Chebychev) 거리 맨하탄 (Manhattan) 거리 맨하탄 거리는 바둑판 처럼 가로,세로 길이를 더한 것이라 한다. ("데이터마이닝", 방통대) 직선길이가 아닌 캔버라 (Canberra) 거리 민코우스키 (Minkowski) 거리 여기서부터는 유명한 거리들 몇 개에 대한 설명 마할라노비스 거리는 분산을 고려한 거리이다.왜 분산을 고려하냐면 , 분산이 클 경우 점들이 더 멀리 퍼져있을 거란 가정 때문이다. 위의 오른쪽 그림에서분산을 고려하지 않을 경우 점1 과 점2의 거리(유클리디안 거..
http://insightdataengineering.com/blog/The-Data-Engineering-Ecosystem-An-Interactive-Map.html 데이터 수집, 배치 처리, 스트림 처리, 프론트 엔드까지 각 영역별로 어떤 대안들이 있는지 한눈에 들어오도록 잘 정리한 맵입니다. http://insightdataengineering.com/blog/pipeline_map.html 에서 각 카테고리별로 간단한 설명을 확인할 수 있습니다.(카테고리들에 마우스를 가져가 보세요.) 아래 내용은 위 URL 내용을 번역한 내용입니다. Companies, non-profit organizations, and governments are all starting to realize the huge va..
Maven Project 생성 pom.xml 설정 4.0.0 com.jw.storm hellostorm 0.0.1-SNAPSHOT jar hellostorm http://maven.apache.org UTF-8 junit junit 3.8.1 test org.apache.storm storm-core 0.9.3 maven-assembly-plugin 2.2.1 jar-with-dependencies make-assembly package single 구조 Spout에서 Bolt로 "hello storm"이라는 메시지를 전송한다. 실제 클러스터 환경에서는 spout은 외부로부터 데이터를 받아서 가공 후 bolt로 전송해 주는 식으로 적용될 것이다. 여기서 spout과 bolt를 연결해 주는 Topology..
- Total
- Today
- Yesterday
- 태그를 입력해 주세요.
- Apache Spark
- Git
- jenkins
- mongodb
- spark
- Hdfs
- flume
- 확률분포
- exception
- linux
- Django
- Oracle
- 책요약
- Sqoop
- Learning Spark
- json
- mysql
- bigdata
- db
- 통계학
- spring
- PYTHON
- mongo
- 데이터과학자
- jackson
- jenkins2.0
- HADOOP
- 알고리즘
- java
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |