본문 바로가기
BigData/Article

The Data Engineering Ecosystem: An Interactive Map

by Tomining 2015. 3. 12.




데이터 수집, 배치 처리, 스트림 처리, 프론트 엔드까지 각 영역별로 어떤 대안들이 있는지 한눈에 들어오도록 잘 정리한 맵입니다.
http://insightdataengineering.com/blog/pipeline_map.html 에서 각 카테고리별로 간단한 설명을 확인할 수 있습니다.(카테고리들에 마우스를 가져가 보세요.)

아래 내용은 위 URL 내용을 번역한 내용입니다.

Companies, non-profit organizations, and governments are all starting to realize the huge value that data can provide to customers, decision makers, and concerned citizens. What is often neglected is the amount of engineering required to make that data accessible. Simply using SQL is no longer an option for large, unstructured, or real-time data. Building a system that makes data usable becomes a monumental challenge for data engineers. 

회사나 비영리 단체, 정부조직들은 고객이나 결정권자 또는 시민들에게 데이터가 제공할 수 있는 큰 가치를 알기 시작했다. 종종 도외시되는 점은 접근 가능한 데이터를 만드는 기술의 양이다. 간단히 SQL을 사용하는 것은 빅 데이터, 비구조적 데이터, 실시간 데이터에게는 더 이상 Option이 되지 않는다. 데이터들을 사용가능하게 만드는 시스템을 구축하는 것은 Data 기술자들에게 큰 도전 과제가 되었다.

There is no plug and play solution that solves every use case. A data pipeline meant for serving ads will look very different from a data pipeline meant for retail analytics. Since there are unlimited permutations of open-source technologies that can be cobbled together, it can be overwhelming when you first encounter them. What do all these tools do and how do they fit into the ecosystem? 

모든 경우을 해결할 수 있는 간단한(Plug&Play) 해결책은 없다. 광고(Ads)업계에 필요한 데이터 처리들은 소매(Retail)업계에서의 데이터처리와는 상당히 다르게 나타난다. 함께 사용될 수 있는 수 많은 Open-source 기술들 때문에 처음 접할 때 다소 어려울 수 있다. 이런 기술들이 무엇을 하는지, 어떻게 데이터 생태계 내에서 적용하는지?

Insight Data Engineering Fellows face these same questions when they begin working on their data pipelines. Fortunately, after several iterations of the Insight Data Engineering Program, we have developed this framework for visualizing a typical pipeline and the various data engineering tools. Along with the framework, we have included a set of tools for each category in the interactive map

Insight Data Engineering 전문가들은 데이터 처리를 시작할 때 이와 같은 질문에 직면한다. 운이 좋게도 몇 번의 Insight Data Engineering Program iteraction 후에 우리는 전형적인 처리 방법이나 다양한 데이터 처리 툴들을 시각화할 수 있는 Interactive Map(위 그림)을 만들어 낼 수 있었다. 이 Map을 보면 각 카테고리에 몇 가지 툴들을 나열해 두었다.

Of course, there are more tools than we can possibly cover in a single chart, and many of them cannot be strictly categorized. However, based off several metrics1and our experience with Fellows and industry mentors, we developed a map of the most widely used tools that represent the broad ecosystem. We hope that it will also help you make sense of the zoo of tools used in the field of data engineering. 

1 The metrics used to help us choose which tools to include were the number of hits in a Github search for the tool, the number of stars that the project has on Github, and the number of job posts on Indeed in the San Francisco Bay area mentions the tool.

물론 각 카테고리에 포함될 수 있는 더 많은 툴들이 있을 수도 있고, 나열된 툴들 중 각 카테고리에 딱 들어맞지 않을 수도 있다. 그러나 Metrics, 전문가들과 업계 멘토들의 경험을 바탕으로 데이터 업계에서 가장 널리 사용되는 툴들을 기반으로 Map을 작성하였다. 데이터 기술에서 사용될 수 있는 수많은 툴들을 이해하는데 도움이 되길 바란다.

* Mestrics - 메트릭은 Github에서 조회된 수, 그 Project(툴)가 가지고 있는 별점 그리고 San Francisco 해변 지역에서 해당 툴들이 언급된 구인광고 수를 포함한 것으로 어떤 툴을 사용할 지 선택하는데 도움을 준다.




[느낀점]

사용해 본 툴들도 있고, 책만 보고 넘어 간 것들도 있고, 처음 접하는 툴들도 있습니다. 이렇게 Data Pipeline 에서 사용될 수 있는 툴들을 한 눈에 볼 수 있어서 각 툴들의 역할을 이해하는데 도움이 된 것 같습니다.
개인적으로 flume이 빠져 있는 것은 조금 아쉽고, ActiveMQ 또한 많이 사용되고 있는 것으로 알고 있는데 왜 빠져있는지는 조금 이해가 안되네요.
이 Map을 작성할 때 Map에 빠져있는 툴들이 왜 제외가 되었는지에 대한 내용이 없어서 조금 아쉬웠습니다.

아직 읽어보진 않았지만 페이지에 링크되어 있는 white paper에 자세한 설명을 하고 있지 않을까 생각이 됩니다.