[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[2]
전제조건
실습과정 간단 정리
- s3에 저장된 데이터를 크롤러의 도움을 받아서 글루 데이터 카탈로그에 등록
서비스명 | 서비스 설명 | 비고 |
Amazon Glue | 원본 데이터에서 크롤러를 정의하여 테이블 형태로 aws glue data catalog를 채운다. | 데이터 카탈로그란? s3의 데이터를 테이블처럼 만드는 것을 카탈로그로 만든다고 함. 데이터를 글루데이터 카탈로그에 등록시켜 놓으면 aws의 다른 분석 서비스에서 활용 할 수 있음 |
Amazon Athena | aws의 대화형 대화형 쿼리 서비스 |
1. IAM 역할 생성
aws glue 서비스를 사용하기 전 iam 콘솔로 이동하여 권한을 정의해야 함
- create role - glue 서비스 선택
- AmazonS3FullAccess : s3에 있는 모든 권한을 줌(workshop이므로 해당 권한 부여, 실제라면 더 세부적인 권한을 부여해야 함
- AWSGlueServiceRole : 글루 관련 접근 권한
- role name : analyticsworkshopglueRole
2.Amazon Glue crawer 사용
aws glue 콘솔로 이동,, 좌측 패널의 크롤러를 선택하여 크롤러 생성
add crawler 클릭
크롤러 이름 : analyticsworkshopcrawler
크롤링 할 데이터가 있는 위치를 지정해줍니다.
choose data store : S3
include path : s3://hongwon-analytics-workshop-bucket/data
방금 추가한 analyticsworkshopgluerole 을 선택하여 글루가 s3속 데이터에 접근하여 파일을 열어볼 수 있게 함
runondemand 를 선택하여 원할때 크롤러가 실행되게 함
----------------->크롤러 설정 완료
2. 크롤러가 저장 할 데이터베이스 생성
글루는 사실상 데이터베이스 안에 테이블을 만드는 것인데, 지금은 데이터베이스가 없으므로
add database - name : analyticsworkshopdb 로 만든 뒤 db 선택
설정 전체 한눈에 보기
3. 크롤러 실행
analyticsworkshopcrawler 체크 후 Run crawler 버튼 선택
버켓의 폴더(data 폴더)로 가서 폴더들을 뒤지고 (raw 폴더,reference_data 폴더)그것을 테이블 형태로 등록을 알아서 해줌
(컬럼이름, 데이터타입 알아서 설정,reference_data의 연월일시로 들어간 파티셔닝 형식도 알아서 테이블로 설정 해줌)
4. 크롤러 실행 결과 보기
우측 tables added 열에 2 라고 되어있는데 이는 s3의 data 폴더 중 raw 폴더 와 reference_data 폴더를 테이블로 만들었다는 것을 뜻함
좌측 바로가기 바 - table 에서 각 폴더에 맞는 테이블이 생성 된 것을 확인 가능
다음은 raw 테이블 클릭시 볼수있는 raw 테이블의 세부 사항
스키마까지 자동으로 생성 됨
5. Amazon Athena 로 쿼리 작성
테이블 만들기만 하면 의미가 없으므로 아마존 아테나를 사용하여 수집된 데이터에 쿼리를 날리는 작업
아테나에 접속한 뒤 해야 할 설정
- 쿼리문으로 생성된 데이터들을 어디다 저장 할 것인가?
- setting ->manage 에 접속하여 s3://hongwon-analytics-workshop-bucket/query_results/를 입력하여 버켓에서 query_results 라는 폴더를 따로 만들어 저장 하는 것으로 설정
아테나에서 쿼리를 활용 할 준비 끝
실행
현재 과정 되짚어보기
s3 에 저장한 데이터를 Glue의 crawler를 활용하여 data catalog로 저장하고 아테나에서 쿼리를 실행하였다
다음편 보러가기
2022.05.28 - [Specialist/AWS] - [AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[3]
[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[3]
전제조건 [AWS] AWS 기반 데이터 파이프라인 구축 - Analytics on AWS 워크숍[2] 실습과정 미리보기 AWS Glue ETL을 사용하여 데이터를 처리하고 결과를 다시 S3에 저장 Glue 개발 엔드포인트와 Sagemaker 노트북
khw742002.tistory.com