🥞 BE
home

빅데이터 플랫폼 (3)

Date
2023/10/31
Category
DB
Tag
Basic
Detail
Data Management

3 빅데이터 처리 방식

3.1 빅데이터 처리 방식 종류

배치 처리 (Batch Processing)
대화형 처리 (Interactive Processing)
실시간 처리 (Real-time Processing)

3.1.1 배치처리

✓ 일일, 주간, 월간 보고서 작성
✓ 주기적 작업을 일괄적으로 수행하는 형식
✓ 답변을 얻기까지 일정 시간이 소요되는 처리 방식
✓ 배치 처리 대표적인 툴
맵리듀스 (MapReduce)
하이브 (Hive)
피그 (Pig)

3.1.2 대화형 처리

✓ 원하는 질의에 대해 수 초 내에 답을 얻는 형태
✓ 대화형 처리 대표적인 툴
하이브 (Hive)
피드 (Pig)
스파크 (Spark)

3.1.3 실시간 처리

✓ 수 초 미만 또는 1초 미만의 실시간 처리 및 이벤트성 응답
✓ 데이터 스트림 처리
✓ 데이터가 수집되는 즉시, 실시간 전처리, 실시간 계산, 실시간 패턴 분석을 처리
✓ 결제나 비정상 카드 사용 등에 대한 데이터 분석에 사용
✓ 실시간 처리 대표적인 툴
스톰 (Storm)
스파크 스트리밍 (Spark Streaming)
✓ 스톰(Storm)
실시간 분석
온라인 머신러닝
연속적인계산
ETL 작업
✓ 스파크 스트리밍(Spark Streaming)
높은 대용량 데이터 처리 → 데이터는 카프카(kafka), 플럼(flume), 케네시스(kinesis), TCP 소켓 등을 통해 수집
실시간 스트림 처리
맵리듀스, 조인, 윈도우 등과 같은 복잡한 알고리즘 사용 가능
출력으로 파일시스템, 데이터베이스, 실시간 대시보드 등을 지원

3.2 빅데이터 처리 솔루션

3.2.1 아파치 소프트웨어 파운데이션

✓ 1999년 만들어진 비영리 재단
✓ 빅데이터 관련 오픈소스 프로젝트를 수행하여 그 결과를 무료로 공유
✓ 하둡 및 하둡 에코 시스템 개발

3.2.2 클라우데라 (cloudera)

✓ 2008년 설립
✓ 하둡 및 하둡 에코 시스템 전문 기업
✓ 클라우데라 하둡(CDH) 배포판 제공

3.2.3 호튼웍스 (Hortonworks)

✓ 2011년 설립
✓ 하둡 플랫폼 설계, 구축, 테스트에 적극 참여
✓ 하둡 개발 및 컨설팅
✓ HDP 하둡 배포판 제공

3.2.4 마이크로소프트 애저(Azure)

✓ 통합된 클라우드 가상머신 서비스 플랫폼
✓ 분석, 컴퓨팅, 데이터베이스, 모바일, 저장소 웹 등 IT 인프라 서비스 제공
✓ HDInsight 하둡 클러스터 서비스 제공

3.2.5 아마존 AWS

✓ 통합된 클라우드 가상머신 서비스 플랫폼
✓ 분석, 컴퓨팅, 데이터베이스, 모바일, 저장소 웹 등 IT 인프라 서비스 제공
✓ 빅데이터 처리를 위한 하둡 맵리듀스 프레임워크를 클라우스 서비스 형태로 제공