🥞 BE
home

데이터 활용 시스템

Date
2023/06/27
Category
Data Engineering
Tag
Basic
Detail

데이터 분석 및 활용

분석가가 쉽게 활용할 수 있는 도구(SQL, Jupyter Notebook 등)를 이용해서 쉽고 빠르게 데이터를 조회할 수 있는 시스템을 구축
AI 관련 엔지니어 또는 연구자가 활용할 수 있는 도구(Jupyter Notebook, TensorFlow 등)로 AI 로직을 태워볼 수 있는 환경을 구축
빠르게 조회할 수 있는 환경을 구축
빠르게 조회할 수 있는 데이터 저장소 API 서비스 개발
빠르게 조회할 수 있는 데이터 베이스에 데이터 적재
시스템, 서비스의 이상을 (주기적/실시간/on-demand)으로 분석해서 판단
기술 스택 : Elastic Search, Kibana, Hadoop, Hive, Jupyterm Spark, Presto, Druid

데이터 저장소

전통적으로 DBA의 영역이지만, DBA를 따로 두기 어려운 경우에(회사, 서비스의 규모자 작거나 DBA를 구하기 어려울 때) Data Engineer에게 맡기는 경우도 있음.
대용량 분산 시스템인 Hadoop의 경우에는 전문 DBA가 운영하는 경우도 있고 Data Engineer 직무에서 운영하는 경우도 있음. 회사마다 팀마다 다름.
DBA가 있더라도 데이터 엔지니어가 데이터의 전달, 가공, 활용 시스템을 맡기 때문에 저장소를 이해하고 모니터링하고 데이터의 신뢰성을 보장할 수 있어야 함.
데이터가 유실되지 않도록 보장
데이터 저장소를 안정적으로 이용할 수 있는 시스템 구축(e.g. Hadoop의 small file problem이 안생기도록 파일 갯수 모니터링 및 파일 병합)
데이터 저장소의 활용방법(ex. Hadoop)을 가이드
기술 스택 : Elastic Search, Hadoop