데이터로 할 수 있는 일이 다양해지고 형태를 예측하기 불가능해지며 스키마를 정의하기 힘들어졌다.
1.
실시간성을 요구하는 기능들
2.
빨라지는 기능 추가
3.
실시간 로그
4.
비정형 데이터
5.
서드 파티 데이터
컴퓨팅 파워도 많이 저렴해졌다.
최대한 많은 데이터를 미리 저장해두고 많은 양의 프로세싱을 할 수 있게 되었다.
이젠 컴퓨팅 파워에 대한 비용 최적화보다 비즈니스와 속도를 최적화하는 쪽이 이득이 크다.
데이터 인프라 트렌드
•
클라우드 웨어하우스 → Snowflake, Google Big Query
•
Hadoop에서 Databricks, Presto 같은 다음 세대로.
•
실시간 빅데이터 처리 (Stream Processing)
•
ETL → ELT
•
Dataflow 자동화 (Airflow)
•
데이터 분석 팀을 두기 보단 누구나 분석할 수 있도록
•
중앙화 되는 데이터 플랫폼 관리 (access control, data book)
데이터 아키텍쳐 분야를 크게 6가지로 나누어 보았을때
데이터가 생성되어 적용되기까지
데이터 엔지니어링 도구들
일반적인 엔지니어링은 “수집 및 변환” 그리고 “데이터 처리”에 집중