빅쿼리에서 SQL을 다루다 보면 이를 코랩에서 사용하여, 데이터 분석의 흐름을 자연스럽게 나타내고 싶다는 생각이 든다. 따라서 이번 글에서는 빅쿼리를 코랩에서 사용할 수 있는 방법을 알아보겠다.
빅쿼리의 데이터셋 - 전국 요양병원 데이터
대학 과제를 위해 uipath RPA를 사용하여 크롤링 한 전국 요양병원 데이터세트이다.(상업적 이용 x)
https://www.g-health.kr/portal/health/pubHealthSearch/list.do?bbsId=U00198&menuNo=200452#totalcount
이번 글에서는 필자의 빅쿼리의 프로젝트명,데이터세트명, 테이블의 구조만 파악하면 된다.(빨간 박스)
구글 빅쿼리에 적제되어 있는 이 데이터를 코랩을 통해 불러오고, 테이블을 만드는 방법 2가지를 소개하겠다.
- google.cloud.bigquery라이브러리 사용하기
1. 인증하기
2. (선택사항) 데이터프레임을 대화형 데이터 테이블로 표시하는 google.colab.data_table 활성화 (매직 커맨드 사용)
3. google.cloud.bigquery 라이브러리의 쿼리 실행 매직커맨드 사용
4. google.cloud.bigquery 라이브러리를 사용하여 데이터를 pandas DataFrame로 바로 변환하기
5. 테이블 만들기
- Pandas-gbq 사용하기
pandas gbq 패키지를 사용하여 모든 종류의 RDBMS 연결해서 사용할수 있다. 빅쿼리도 gbq를 활용 가능!
1. gbq 패키지를 사용하여 데이터 읽기
-hos 테이블 읽어오기
2. gbq 패키지를 사용하여 테이블 만들기
google.cloud.bigquery와 pandas_gbq를 사용하여 구글 빅쿼리의 데이터를 읽어오고,
코랩에서 빅쿼리 테이블을 만드는 방법을 알아보았다.
참고문서
https://github.com/serithemage/DataScienctPractice/blob/main/BigQuery%EC%97%B0%EC%8A%B5.ipynb
https://pandas-gbq.readthedocs.io/en/latest/intro.html
Introduction — pandas-gbq 0.14.1+1.g97c9aaa documentation
By default, queries use standard SQL syntax. Visit the reading tables guide to learn about the available options. Adjusting log vebosity Because some requests take some time, this library will log its progress of longer queries. IPython & Jupyter by defaul
pandas-gbq.readthedocs.io
GitHub - serithemage/DataScienctPractice: 데이터 과학 연습용 리포지토리
데이터 과학 연습용 리포지토리. Contribute to serithemage/DataScienctPractice development by creating an account on GitHub.
github.com
'Generalist > data engineering' 카테고리의 다른 글
[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[3] (0) | 2022.05.28 |
---|---|
[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍[2] (0) | 2022.05.27 |
[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍 [1] (0) | 2022.05.24 |
[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍 [시작] (0) | 2022.05.22 |
ETL vs ELT 초보 데이터 분석가들을 위한 가장 쉬운 설명 (0) | 2022.05.21 |
댓글