Generalist/data engineering

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[2]

홍원 2022. 5. 27. 17:10

전제조건


실습과정 간단 정리

  • s3에 저장된 데이터를 크롤러의 도움을 받아서 글루 데이터 카탈로그에 등록

서비스명 서비스 설명 비고
Amazon Glue 원본 데이터에서 크롤러를 정의하여 테이블 형태로 aws glue data catalog를 채운다. 데이터 카탈로그란?
s3의 데이터를 테이블처럼 만드는 것을 카탈로그로 만든다고 함.
데이터를 글루데이터 카탈로그에 등록시켜 놓으면 aws의 다른 분석 서비스에서 활용 할 수 있음
Amazon Athena aws의 대화형 대화형 쿼리 서비스  

1. IAM 역할 생성

aws glue 서비스를 사용하기 전 iam 콘솔로 이동하여 권한을 정의해야 함

  • create role - glue 서비스 선택
  • AmazonS3FullAccess : s3에 있는 모든 권한을 줌(workshop이므로 해당 권한 부여, 실제라면 더 세부적인 권한을 부여해야 함
  • AWSGlueServiceRole : 글루 관련 접근 권한
  • role name : analyticsworkshopglueRole

2.Amazon Glue crawer 사용

aws glue 콘솔로 이동,, 좌측 패널의 크롤러를 선택하여 크롤러 생성

add crawler 클릭

크롤러 이름 : analyticsworkshopcrawler

크롤링 할 데이터가 있는 위치를 지정해줍니다.

choose data store : S3

include path : s3://hongwon-analytics-workshop-bucket/data

방금 추가한 analyticsworkshopgluerole 을 선택하여 글루가 s3속 데이터에 접근하여 파일을 열어볼 수 있게 함

runondemand 를 선택하여 원할때 크롤러가 실행되게 함

----------------->크롤러 설정 완료

 


2. 크롤러가 저장 할 데이터베이스 생성

글루는 사실상 데이터베이스 안에 테이블을 만드는 것인데, 지금은 데이터베이스가 없으므로

add database - name : analyticsworkshopdb 로 만든 뒤 db 선택

설정 전체 한눈에 보기


3. 크롤러 실행

analyticsworkshopcrawler 체크 후 Run crawler 버튼 선택

버켓의 폴더(data 폴더)로 가서 폴더들을 뒤지고 (raw 폴더,reference_data 폴더)그것을 테이블 형태로 등록을 알아서 해줌

(컬럼이름, 데이터타입 알아서 설정,reference_data의 연월일시로 들어간 파티셔닝 형식도 알아서 테이블로 설정 해줌)


4. 크롤러 실행 결과 보기

우측 tables added 열에 2 라고 되어있는데 이는 s3의 data 폴더 중 raw 폴더 와 reference_data 폴더를 테이블로 만들었다는 것을 뜻함

 

좌측 바로가기 바 - table 에서 각 폴더에 맞는 테이블이 생성 된 것을 확인 가능

 

다음은 raw 테이블 클릭시 볼수있는 raw 테이블의 세부 사항

스키마까지 자동으로 생성 됨


5. Amazon Athena 로 쿼리 작성

테이블 만들기만 하면 의미가 없으므로 아마존 아테나를 사용하여 수집된 데이터에 쿼리를 날리는 작업

 

아테나에 접속한 뒤 해야 할 설정

  • 쿼리문으로 생성된 데이터들을 어디다 저장 할 것인가?
    • setting ->manage 에 접속하여 s3://hongwon-analytics-workshop-bucket/query_results/를 입력하여 버켓에서 query_results 라는 폴더를 따로 만들어 저장 하는 것으로 설정

 

아테나에서 쿼리를 활용 할 준비 끝

 

실행

아테나에서 쿼리를 실행한 모습


현재 과정 되짚어보기

 

s3 에 저장한  데이터를 Glue의 crawler를 활용하여 data catalog로 저장하고 아테나에서 쿼리를 실행하였다

 


다음편 보러가기

2022.05.28 - [Specialist/AWS] - [AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[3]

 

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[3]

전제조건 [AWS] AWS 기반 데이터 파이프라인 구축 - Analytics on AWS 워크숍[2] 실습과정 미리보기 AWS Glue ETL을 사용하여 데이터를 처리하고 결과를 다시 S3에 저장 Glue 개발 엔드포인트와 Sagemaker 노트북

khw742002.tistory.com