3 빅데이터 처리 방식
3.1 빅데이터 처리 방식 종류
•
배치 처리 (Batch Processing)
•
대화형 처리 (Interactive Processing)
•
실시간 처리 (Real-time Processing)
3.1.1 배치처리
✓ 일일, 주간, 월간 보고서 작성
✓ 주기적 작업을 일괄적으로 수행하는 형식
✓ 답변을 얻기까지 일정 시간이 소요되는 처리 방식
✓ 배치 처리 대표적인 툴
•
맵리듀스 (MapReduce)
•
하이브 (Hive)
•
피그 (Pig)
3.1.2 대화형 처리
✓ 원하는 질의에 대해 수 초 내에 답을 얻는 형태
✓ 대화형 처리 대표적인 툴
•
하이브 (Hive)
•
피드 (Pig)
•
스파크 (Spark)
3.1.3 실시간 처리
✓ 수 초 미만 또는 1초 미만의 실시간 처리 및 이벤트성 응답
✓ 데이터 스트림 처리
✓ 데이터가 수집되는 즉시, 실시간 전처리, 실시간 계산, 실시간 패턴 분석을 처리
✓ 결제나 비정상 카드 사용 등에 대한 데이터 분석에 사용
✓ 실시간 처리 대표적인 툴
•
스톰 (Storm)
•
스파크 스트리밍 (Spark Streaming)
✓ 스톰(Storm)
•
실시간 분석
•
온라인 머신러닝
•
연속적인계산
•
ETL 작업
✓ 스파크 스트리밍(Spark Streaming)
•
높은 대용량 데이터 처리
→ 데이터는 카프카(kafka), 플럼(flume), 케네시스(kinesis), TCP 소켓 등을 통해 수집
•
실시간 스트림 처리
•
맵리듀스, 조인, 윈도우 등과 같은 복잡한 알고리즘 사용 가능
•
출력으로 파일시스템, 데이터베이스, 실시간 대시보드 등을 지원
3.2 빅데이터 처리 솔루션
3.2.1 아파치 소프트웨어 파운데이션
✓ 1999년 만들어진 비영리 재단
✓ 빅데이터 관련 오픈소스 프로젝트를 수행하여 그 결과를 무료로 공유
✓ 하둡 및 하둡 에코 시스템 개발
3.2.2 클라우데라 (cloudera)
✓ 2008년 설립
✓ 하둡 및 하둡 에코 시스템 전문 기업
✓ 클라우데라 하둡(CDH) 배포판 제공
3.2.3 호튼웍스 (Hortonworks)
✓ 2011년 설립
✓ 하둡 플랫폼 설계, 구축, 테스트에 적극 참여
✓ 하둡 개발 및 컨설팅
✓ HDP 하둡 배포판 제공
3.2.4 마이크로소프트 애저(Azure)
✓ 통합된 클라우드 가상머신 서비스 플랫폼
✓ 분석, 컴퓨팅, 데이터베이스, 모바일, 저장소 웹 등 IT 인프라 서비스 제공
✓ HDInsight 하둡 클러스터 서비스 제공
3.2.5 아마존 AWS
✓ 통합된 클라우드 가상머신 서비스 플랫폼
✓ 분석, 컴퓨팅, 데이터베이스, 모바일, 저장소 웹 등 IT 인프라 서비스 제공
✓ 빅데이터 처리를 위한 하둡 맵리듀스 프레임워크를 클라우스 서비스 형태로 제공