본문 바로가기
Generalist/data engineering

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[4]

by 홍원 2022. 5. 29.

전제조건


실습과정 미리보기

  •  Amazon Athena의 표준 SQL 쿼리를 사용하여 Glue 카탈로그에 등록된 데이터를 탐색
  •  Athena를 사용하여 Amazon Quicksight에서 대시보드/시각화를 구축

서비스명 서비스 설명 비고
AWS Athena Amazon Athena는 표준 SQL을 사용해 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스  Athena는 서버리스 서비스이므로 관리할 인프라가 없으며 실행한 쿼리에 대해서만 비용을 지불함
AWS Quicksight Amazon QuickSight는 아마존이 제공하는 서버리스 매니지드 BI 상품. 특정 데이터에 대한 시각화 대시보드를 생성하고 다른 사용자와 공유할 수 있음  

1. 쿼리 결과를 저장할 S3 버킷 만들기

 Amazon Athena 에 접속 한 뒤 쿼리 결과를 저장할 S3 버킷을 먼저 만들어야하므로 다음 단계를 따라 설정한다.

  • 저장될 버킷 생성 : hongwon-query-results
  • 버킷을 생성 한 후 Athena 콘솔로 돌아가서 콘솔 오른쪽 상단의 'Settings' 를 클릭
  • 방금 생성 한 버킷의 이름과 마지막에 슬래시(/)를 포함하여 입력 : s3://hongwon-query-results/
  • Save 클릭

2. Athena를 사용하여 변환된 데이터 탐색

Data Source : AwsDataCatalog 를 선택하여 AWS Glue 카탈로그에 접근

Database : analyticsworkshopdb

--------------------> 설정 끝, 다음 쿼리 실행

SELECT artist_name,
       count(artist_name) AS count
FROM processed_data
GROUP BY artist_name
ORDER BY count desc

쿼리 실행 모습
쿼리 결과


3. Amazon Quicksight 계정 가입

Amazon Quicksight를 사용하여 시각화를 하기위해 Amazon Quicksight 가입합니다.

 

아래 절차에 따라 가입합니다.

  • Enterprise 선택 확인 후 Continue 클릭
  • QuickSight account name: hongwonanalyticsworkshop
  • Notification email address: khw742002@naver.com
  • Amazon Athena 선택 - 이를 통해 Amazon Athena 데이터베이스에 대한 QuickSight 액세스가 가능합니다.
  • Amazon S3 선택
    • hongwon-analytics-workshop-bucket 선택
    • Finish 클릭
  • Finish 클릭
  • QuickSight 계정이 생성 될 때까지 기다립니다.

좌측 바의 database 클릭 - 우측 상단의 new dataset 클릭 -> 접속 후 아테나에서 실행할 것이기 때문에 아테나클릭

name : analyticsworkshop

workgroup : primary

로 설정 해 준뒤 create data source 선택

테이블 선택을 위한 설정 화면에서는

catalog : AwsDataCatalog

database : analyticsworkshopdb

Table : processed_data 를 활용한다.

마지막으로 SPICE Quicksight를 선택하여 프로세싱 한다.

SPICE Quicksight aws에서 제공하는 인메모리 엔진이다. 이것을 사용하면 시각화에 걸리는 시간을 줄일 수 있다.


3. Amazon Quicksight 를 사용하여 시각화 구축

시각화 화면

  • Row : device_id
  • Columns : track_name
  • Visual types : 히트맵

위 설정을 통해 어떤 사용자가 반복적으로 트랙을 듣고 있는지 보여주는 시각화를 구현

히트맵 시각화 결과

 

가장 많이 연주된 아티스트를 구하는 시각화 구현

  • 왼쪽 상단 add+ - add visual 으로 시각화 화면추가
  • Group by : artist_name
  • visual type : 트리맵


현재 과정 되짚어보기

S3/Glue Data Caltalog에 적재된 데이터를 Athena를 사용하여 분석, QuickSight를 사용하여 시각화

 


다음편 보러가기

2022.05.30 - [Specialist/AWS] - [AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[5]

 

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[5]

전제조건 [AWS] AWS 기반 데이터 파이프라인 구축 - Analytics on AWS 워크숍[4] 실습과정 미리보기 람다 함수를 작성하여 Athena가 S3의 processsed data에서 Hits 별 Top 5 Popular Songs를 쿼리하고 가져 오는 코드

khw742002.tistory.com

 

댓글