데이터 분석가 채용공고를 보다 보면, ETL , ELT 능력을 갖춘 인재를 찾는다는 글이 많다.
항상 정리된 데이터만 보는 초보 데이터 분석가들에게는 이 용어가 와닿지 않을 수 있는데,
오늘은 ETL 과 ELT가 무엇인지 알아보고, 그 차이점은 무엇인지 알아보겠다.
단, 누구나 이해할 수 있게 쉽게 설명하므로 비약이 있을 수 있다.
E, T, L 이란?
- E / EXTRACT / 추출 : 원본 데이터 소스(데이터 베이스, ERP, Web 등)에서 데이터를 뽑아냄
- T / TRANSFORM / 변환 : 데이터를 예쁘게 변환
- L / LOAD / 적재 : 데이터를 데이터 저장소에 저장
ETL 이란?
추출 ->변환 -> 적재 순으로 데이터를 처리한다.
1. 여러 데이터 소스에서 정리되지 않은 데이터들을 막 뽑아낸다.
2. Staging area에 집어넣는다. Staging area란 데이터 원본과 데이터 웨어하우스 사이의 임시 저장 영역으로
여러 데이터를 변환하여 데이터를 예쁘게 만든다(일종의 사회화 훈련..?)
3. 예쁘게 정리된 데이터를 데이터 웨어하우스에 집어넣는다.
데이터 웨어하우스란 일단 데이터를 집어넣는 창고라고 생각하자.(사회화 훈련을 통해 데이터들의 질서가 잡혀있다.)
4. 예쁜 데이터로 데이터 시각화를 시행한다.
ELT 란?
추출-> 적재-> 변환 순으로 데이터를 처리한다.
1. 데이터 소스들에서 정리되지 않은 데이터를 막 뽑아낸다.
2. 데이터 레이크에 무조건 집어넣는다. 데이터 레이크란 다양한 원시 데이터들이 저장되는 저장소이다.
(자연 상태의 다양한 원시부족들이 있다)
3. 데이터 레이크 안에서 필요한 데이터들을 예쁘게 변환하여 데이터 시각화를 한다.
ETL의 특징 및 장점
데이터의 필터링하여 적재한다 --> 효율적이며 안정적인 데이터 분석이 가능
데이터 엔지니어의 상세한 계획이 필요하다 --> 보안 규정 위반 위험성을 줄여준다.
오랜 기간 발전된 방식이다. --> 잘 개발된 플랫폼들이 많다. 경험이 풍부한 엔지니어 또한 많다.
ELT의 특징 및 장점
짧은 적재 시간 --> 데이터를 추출, 적재, 변환하는 시간이 ETL보다 빠르다.
Staging stage가 없다. --> 유지보수 비용이 낮다.
다양한 형태의 원시 데이터가 있다. --> 분석가들이 필요한 데이터를 직접 선택하여 분석한다
ETL의 종말, ELT의 등장
1960년 RDBMS가 만들어지고 데이터 통합을 촉진시키기 위해 1970년 ETL 이 등장했습니다.
다양한 데이터 소스들에서 중앙집중식으로 한 번에 관리하는 ETL은 날이 갈수록 크게 성장했습니다.
하지만 2000년대 클라우드 컴퓨팅의 등장으로 ELT라는 새로운 진화를 일으켰습니다.
클라우드의 등장으로 저장소의 가격이 낮아져, 기존의 성능 좋은 Staging stage를 사용하는 것보다 Snowflake, Amazon Redshift, Google Bigquery, Microsoft Azure 같은 거대하고 똑똑한 데이터 레이크를 구축하는 것이 더 비용이 적게 드는 상황이 벌어졌습니다. 또한 데이터 레이크 내에서 무한한 쿼리를 작성하고 데이터 레이크와 BI 툴이 만나 더 편리하고, 다양하게 데이터를 분석할 수 있습니다.
이처럼 ELT가 떠오르는 기술인 것은 맞지만 여전히 기업들은 ETL을 사용 중이고, 데이터의 특성에 따라 많은 필터링이 필요할 경우 ETL을 사용하는 것이 정답인 경우도 있습니다.
이번 글에서는 ETL, ELT의 정의 및 차이점, 기술 동향을 알아보았다.
책, 캐글에서 보는 정돈된 데이터가 우리에게 어떻게 도착했는지 이제 알게 되었다.
이 글은 보는 초보 데이터 분석가들 파이팅!
'Generalist > data engineering' 카테고리의 다른 글
[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[3] (0) | 2022.05.28 |
---|---|
[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[2] (0) | 2022.05.27 |
[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍 [1] (0) | 2022.05.24 |
[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍 [시작] (0) | 2022.05.22 |
[구글 빅쿼리] - [구글 코랩] 연동법(google.cloud.bigquery, pandas_gbq) (0) | 2022.05.08 |
댓글