티스토리 뷰

Netflix Tech Blog 에서 Spark Streaming 의 자동복구와 관련된 글에 대한 요약 및 개인 생각을 정리해 보았습니다.

Spark Streaming 은 Chaos Monkey 이겨낼까?

여기서 Chaos Monkey 란? AWS 에서 제공되는 서비스로 클라우드 내에서 Auto Scaling Group 을 찾고, Instance 를 종료하는 서비스입니다.
이런 서비스를 실행하는 이유는 Failure(의도하지 않는 서비스 중지) 가 발생했을 때, 어떻게 되는지 확인하기 위함입니다.

Spark Streaming Resiliency
(Spark Streaming 복구 종류)

  • Driver Resiliency
  • Master Resiliency
  • Worker Process Resiliency
  • Executor Resiliency
  • Receiver Resiliency

Spark Streaming 은 위 5가지에 대해서 자동복구가 실행됩니다.
Netflix 에서 Chaos Monkey 를 실행한 결과를 보면 아래와 같습니다.


Driver Failure 와 Receiver Failure 일 때 성능이 떨어지는 것을 확인할 수 있습니다.

Spark Streaming 복구에 대해서 요약해보면 아래 표와 같습니다.(출처 : Netflix Tech Blog)


결론은 Driver Programe 은 Cluster Mode 로 수행하고, Multi Master 환경을 구축해야 안정적인 서비스를 운영할 수 있는 것 같습니다.
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함