'Generalist/data engineering' 카테고리의 글 목록

본문 바로가기

BigQuery - Colab 연동법 (ver. 최신 업데이트) 원래 bigquery와 colab을 연동하기 위해서는 꽤 복잡한 방법을 거쳐야 했습니다. 빅쿼리와 코랩을 넘나드는 자유로운 분석, 시각화에 불편함은 물론이고, 그 분석 내용을 notebook 형태로 정리하기 위해서는 정말 많은 시간이 소요되었습니다. 그러던 2022년 10월 21일 Google Cloud Blog에 Build limitless workloads on BigQuery: New features beyond SQL란 글이 업로드되었습니다. BigQuery removes SQL-only limits and provides new developer extensions | Google Cloud Blog BigQuery announces preview of Stored Procedures for S.. 2022. 10. 26.

Kaggle 데이터를 Google Cloud Storage로 이동시키기 데이터 분석 공부를 위해 많은 데이터 셋들을 kaggle 에서 다운받던 중, 제 노트북에 용량 압박이 점점 느껴졌습니다. 주로 GCP를 사용하는 제 환경 상 Google Cloud Storage (이하 GCS)에 kaggle 데이터를 바로 저장하는것이 효과적이었습니다. 이번 글에서는 Kaggle 데이터를 GCS로 이동시키는 방법을 알아보겠습니다. 1. 새 Kaggle 노트북 생성 캐글 홈페이지에서 왼쪽 상단의 Create - New Notebook 을 클릭하여 새 캐글 노트북을 생성합니다. 2. 데이터 셋 추가 생성된 노트북의 우측 바 - Add Data를 클릭하여 자신이 필요한 캐글 데이터 셋을 추가합니다. 저는 이전 분석에 사용한 동물의 숲 데이터를 가져오겠습니다. 3. 데이터를 GCS로 이동시키기 .. 2022. 9. 23.

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[마무리] 이번 워크샵을 통해 AWS 서비스를 사용하여 데이터 추출,적재,변환,분석의 전반적인 과정을 경험하였습니다. AWS의 각 서비스가 어떠한 역할을 하는지 알고, 이를 조합하여 데이터 파이프라인을 구축 및 데이터 분석을 해볼 수 있는 값진 경험이었습니다. 워크샵을 통해 경험 한 것은 다음과 같습니다. 워크샵의 학습 결과 서버리스 데이터 레이크 아키텍처 설계 Amazon S3를 스토리지를 사용하여 데이터를 Data Lake로 수집하는 데이터 처리 파이프라인 구축 실시간 스트리밍 데이터에 Amazon Kinesis 사용 AWS Glue를 사용하여 데이터세트 자동 분류 AWS Glue 개발 엔드포인트에 연결된 Amazon SageMaker Jupyter 노트북에서 대화형 ETL 스크립트 실행 Glue에서 Amazo.. 2022. 5. 30.

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[6] 전제조건 [AWS] AWS 기반 데이터 파이프라인 구축 - Analytics on AWS 워크숍[5] 실습과정 미리보기 Amazon Redshift 클러스터를 설정하고 S3 데이터를 Amazon Redshift로 로드 1. Redshift IAM Role 생성 이 단계에서는 Redshift 클러스터를 위한 IAM Role을 생성합니다. Create role 클릭 Redshift 선택 Select your use case 아래의 Redshift - customizable 선택 Next: Permissions 클릭 검색 박스에서 정책을 검색 및 선택 AmazonS3FullAccess AWSGlueConsoleFullAccess (워크샵에서는 glue에 접근하기에 필요합니다.) Next: Review 클릭 R.. 2022. 5. 30.

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[5] 전제조건 [AWS] AWS 기반 데이터 파이프라인 구축 - Analytics on AWS 워크숍[4] 실습과정 미리보기 람다 함수를 작성하여 Athena가 S3의 processsed data에서 Hits 별 Top 5 Popular Songs를 쿼리하고 가져 오는 코드를 호스팅 서비스명 서비스 설명 비고 AWS Athena Amazon Athena는 표준 SQL을 사용해 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스 Athena는 서버리스 서비스이므로 관리할 인프라가 없으며 실행한 쿼리에 대해서만 비용을 지불함 AWS Lambda AWS Labmda는 서버를 관리하지 않고도 코드를 실행할 수 있는 AWS에서 제공하는 서버리스 컴퓨팅 서비스 서버리스란? 서버가 없는것이 아니라 서버에 대한 요청을 처.. 2022. 5. 30.

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[4] 전제조건 [AWS] AWS 기반 데이터 파이프라인 구축 - Analytics on AWS 워크숍[3] 실습과정 미리보기 Amazon Athena의 표준 SQL 쿼리를 사용하여 Glue 카탈로그에 등록된 데이터를 탐색 Athena를 사용하여 Amazon Quicksight에서 대시보드/시각화를 구축 서비스명 서비스 설명 비고 AWS Athena Amazon Athena는 표준 SQL을 사용해 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스 Athena는 서버리스 서비스이므로 관리할 인프라가 없으며 실행한 쿼리에 대해서만 비용을 지불함 AWS Quicksight Amazon QuickSight는 아마존이 제공하는 서버리스 매니지드 BI 상품. 특정 데이터에 대한 시각화 대시보드를 생성하고 다른 사용자와.. 2022. 5. 29.

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[3] 전제조건 [AWS] AWS 기반 데이터 파이프라인 구축 - Analytics on AWS 워크숍[2] 실습과정 미리보기 AWS Glue ETL을 사용하여 데이터를 처리하고 결과를 다시 S3에 저장 Glue 개발 엔드포인트와 Sagemaker 노트북을 사용하여 데이터 변환 단계를 진행(PySpark) 서비스명 서비스 설명 비고 AWS Glue dev endpoint AWS Glue 스크립트를 개발하고 테스트할 수 있는 환경 엔드포인트가 데이터 스토어에 액세스한 후 개발 엔드포인트에 연결하는 노트북을 생성. 노트북을 사용하여 ETL 스크립트를 작성하고 테스트할 수 있습니다. AWS SageMaker jupyter notebook과 동일한 환경이나 aws 클라우드 플랫폼 1. AWS Glue Dev Endpo.. 2022. 5. 28.

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[2] 전제조건 [AWS] AWS 기반 데이터 파이프라인 구축 - Analytics on AWS 워크숍[1] 실습과정 간단 정리 s3에 저장된 데이터를 크롤러의 도움을 받아서 글루 데이터 카탈로그에 등록 서비스명 서비스 설명 비고 Amazon Glue 원본 데이터에서 크롤러를 정의하여 테이블 형태로 aws glue data catalog를 채운다. 데이터 카탈로그란? s3의 데이터를 테이블처럼 만드는 것을 카탈로그로 만든다고 함. 데이터를 글루데이터 카탈로그에 등록시켜 놓으면 aws의 다른 분석 서비스에서 활용 할 수 있음 Amazon Athena aws의 대화형 대화형 쿼리 서비스 1. IAM 역할 생성 aws glue 서비스를 사용하기 전 iam 콘솔로 이동하여 권한을 정의해야 함 create role - .. 2022. 5. 27.

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍 [1] 전제조건 AWS 계정에서 AdminstratorAccess에 대한 액세스 권한이 있어야합니다. 이 실습은 us-east-1 리전에서 실행되어야 합니다. 이 가이드의 링크에 따라 새 탭에서 여는 것이 가장 좋습니다. 최신 브라우저에서 이 실습을 실행하세요. 실습과정 간단 정리 Raw 데이터 추출,변환,적재 사용되는 서비스명 서비스 설명 비고 Amazon Kinesis Data Firehose 스트리밍 데이터를 안정적으로 캡처하고 변환하여 데이터 레이크에 전달하는 추출, 변환 로드 서비스 스트리밍 데이터란? 고객,애플리케이션,시스템에서 실시간으로 생성되는 데이터 Amazon S3 클라우드 객체 스토리지 서비스 1. S3 버킷 생성하기 데이터를 적재하기 위한 저장소를 만들어 주기 위해 S3 버킷을 생성한다. .. 2022. 5. 24.

[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍 [시작] ETL vs ELT 글 에서 원시데이터가 어떤 과정을 통해 정제되는지 알아보았다. 이번 글에서는 AWS를 활용하여 직접 그 과정을 실습해보겠다. AWS 서비스를 사용하여 데이터 수집(데이터 엔지니어링)부터 시각화(데이터 분석) 까지 모두 다루는 매우 중요한 프로젝트임을 명심하자 Analytics on AWS workshop Process 사용 서비스와 간략 설명 Amazon Kinesis : 스트리밍 데이터(실시간 데이터) 수집, 처리 서비스 Amazon S3 : 클라우드 스토리지 서비스 Aws Glue : 서버리스 데이터 통합 서비스 Amazon Athena : S3에 저장된 데이터를 분석할 수 있는 대화식 쿼리 서비스 Amazon EMR : 대규모 분산 데이터 처리작업 클라우드 빅데이터 플랫폼 AWS.. 2022. 5. 22.

ETL vs ELT 초보 데이터 분석가들을 위한 가장 쉬운 설명 데이터 분석가 채용공고를 보다 보면, ETL , ELT 능력을 갖춘 인재를 찾는다는 글이 많다. 항상 정리된 데이터만 보는 초보 데이터 분석가들에게는 이 용어가 와닿지 않을 수 있는데, 오늘은 ETL 과 ELT가 무엇인지 알아보고, 그 차이점은 무엇인지 알아보겠다. 단, 누구나 이해할 수 있게 쉽게 설명하므로 비약이 있을 수 있다. E, T, L 이란? E / EXTRACT / 추출 : 원본 데이터 소스(데이터 베이스, ERP, Web 등)에서 데이터를 뽑아냄 T / TRANSFORM / 변환 : 데이터를 예쁘게 변환 L / LOAD / 적재 : 데이터를 데이터 저장소에 저장 ETL 이란? 추출 ->변환 -> 적재 순으로 데이터를 처리한다. 1. 여러 데이터 소스에서 정리되지 않은 데이터들을 막 뽑아낸다.. 2022. 5. 21.

[구글 빅쿼리] - [구글 코랩] 연동법(google.cloud.bigquery, pandas_gbq) 빅쿼리에서 SQL을 다루다 보면 이를 코랩에서 사용하여, 데이터 분석의 흐름을 자연스럽게 나타내고 싶다는 생각이 든다. 따라서 이번 글에서는 빅쿼리를 코랩에서 사용할 수 있는 방법을 알아보겠다. 빅쿼리의 데이터셋 - 전국 요양병원 데이터 대학 과제를 위해 uipath RPA를 사용하여 크롤링 한 전국 요양병원 데이터세트이다.(상업적 이용 x) https://www.g-health.kr/portal/health/pubHealthSearch/list.do?bbsId=U00198&menuNo=200452#totalcount 이번 글에서는 필자의 빅쿼리의 프로젝트명,데이터세트명, 테이블의 구조만 파악하면 된다.(빨간 박스) 구글 빅쿼리에 적제되어 있는 이 데이터를 코랩을 통해 불러오고, 테이블을 만드는 방법 2.. 2022. 5. 8.

이전 1 다음

티스토리툴바