본문 바로가기
Generalist/data engineering

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍 [시작]

by 홍원 2022. 5. 22.

ETL vs ELT 글 에서 원시데이터가 어떤 과정을 통해 정제되는지 알아보았다.

이번 글에서는 AWS를 활용하여 직접 그 과정을 실습해보겠다.

AWS 서비스를 사용하여 데이터 수집(데이터 엔지니어링)부터 시각화(데이터 분석) 까지 모두 다루는

매우 중요한 프로젝트임을 명심하자


Analytics on AWS workshop Process

analytics on AWS data pipline


사용 서비스와 간략 설명

  • Amazon Kinesis : 스트리밍 데이터(실시간 데이터) 수집, 처리 서비스
  • Amazon S3 : 클라우드 스토리지 서비스
  • Aws Glue : 서버리스 데이터 통합 서비스
  • Amazon Athena : S3에 저장된 데이터를 분석할 수 있는 대화식 쿼리 서비스
  • Amazon EMR : 대규모 분산 데이터 처리작업 클라우드 빅데이터 플랫폼
  • AWS Lambda : 서버리스 컴퓨팅 플랫폼
  • Amazon Redshift : 클라우드 데이터 웨어하우스
  • Amazon QuickSight : 클라우드 BI 서비스
  • Amazon SageMaker : 아마존 클라우드의 jupyer 노트북

워크샵 학습 결과

  • 서버리스 데이터 레이크 아키텍처 설계
  • Amazon S3를 스토리지를 사용하여 데이터를 Data Lake로 수집하는 데이터 처리 파이프라인 구축
  • 실시간 스트리밍 데이터에 Amazon Kinesis 사용
  • AWS Glue를 사용하여 데이터세트 자동 분류
  • AWS Glue 개발 엔드포인트에 연결된 Amazon SageMaker Jupyter 노트북에서 대화형 ETL 스크립트 실행
  • EMR을 사용하여 Spark 변환 작업 실행
  • Glue에서 Amazon Redshift로 데이터 적재
  • Amazon Redshift 모범 설계 사례 소개
  • Amazon Athena를 사용하여 데이터를 쿼리하고 Amazon QuickSight를 사용하여 시각화

 

 


다음편 보러가기

2022.05.24 - [Specialist/AWS] - [AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍 [1]

 

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍 [1]

전제조건 AWS 계정에서 AdminstratorAccess에 대한 액세스 권한이 있어야합니다. 이 실습은 us-east-1 리전에서 실행되어야 합니다. 이 가이드의 링크에 따라 새 탭에서 여는 것이 가장 좋습니다. 최신 브

khw742002.tistory.com

 


워크샵을 추천해주신 AWS 테크니컬 트레이너 정도현님 진심으로 감사합니다.

https://catalog.us-east-1.prod.workshops.aws/workshops/44c91c21-a6a4-4b56-bd95-56bd443aa449/ko-KR

 

Workshop Studio

 

catalog.us-east-1.prod.workshops.aws

 

댓글