ETL vs ELT 글 에서 원시데이터가 어떤 과정을 통해 정제되는지 알아보았다.
이번 글에서는 AWS를 활용하여 직접 그 과정을 실습해보겠다.
AWS 서비스를 사용하여 데이터 수집(데이터 엔지니어링)부터 시각화(데이터 분석) 까지 모두 다루는
매우 중요한 프로젝트임을 명심하자
Analytics on AWS workshop Process
사용 서비스와 간략 설명
- Amazon Kinesis : 스트리밍 데이터(실시간 데이터) 수집, 처리 서비스
- Amazon S3 : 클라우드 스토리지 서비스
- Aws Glue : 서버리스 데이터 통합 서비스
- Amazon Athena : S3에 저장된 데이터를 분석할 수 있는 대화식 쿼리 서비스
- Amazon EMR : 대규모 분산 데이터 처리작업 클라우드 빅데이터 플랫폼
- AWS Lambda : 서버리스 컴퓨팅 플랫폼
- Amazon Redshift : 클라우드 데이터 웨어하우스
- Amazon QuickSight : 클라우드 BI 서비스
- Amazon SageMaker : 아마존 클라우드의 jupyer 노트북
워크샵 학습 결과
- 서버리스 데이터 레이크 아키텍처 설계
- Amazon S3를 스토리지를 사용하여 데이터를 Data Lake로 수집하는 데이터 처리 파이프라인 구축
- 실시간 스트리밍 데이터에 Amazon Kinesis 사용
- AWS Glue를 사용하여 데이터세트 자동 분류
- AWS Glue 개발 엔드포인트에 연결된 Amazon SageMaker Jupyter 노트북에서 대화형 ETL 스크립트 실행
- EMR을 사용하여 Spark 변환 작업 실행
- Glue에서 Amazon Redshift로 데이터 적재
- Amazon Redshift 모범 설계 사례 소개
- Amazon Athena를 사용하여 데이터를 쿼리하고 Amazon QuickSight를 사용하여 시각화
다음편 보러가기
2022.05.24 - [Specialist/AWS] - [AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍 [1]
워크샵을 추천해주신 AWS 테크니컬 트레이너 정도현님 진심으로 감사합니다.
https://catalog.us-east-1.prod.workshops.aws/workshops/44c91c21-a6a4-4b56-bd95-56bd443aa449/ko-KR
'Generalist > data engineering' 카테고리의 다른 글
[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[3] (0) | 2022.05.28 |
---|---|
[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[2] (0) | 2022.05.27 |
[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍 [1] (0) | 2022.05.24 |
ETL vs ELT 초보 데이터 분석가들을 위한 가장 쉬운 설명 (0) | 2022.05.21 |
[구글 빅쿼리] - [구글 코랩] 연동법(google.cloud.bigquery, pandas_gbq) (0) | 2022.05.08 |
댓글