본문 바로가기
Generalist/data engineering

[구글 빅쿼리] - [구글 코랩] 연동법(google.cloud.bigquery, pandas_gbq)

by 홍원 2022. 5. 8.

빅쿼리에서 SQL을 다루다 보면 이를 코랩에서 사용하여,  데이터 분석의 흐름을 자연스럽게 나타내고 싶다는 생각이 든다. 따라서 이번 글에서는 빅쿼리를 코랩에서 사용할 수 있는 방법을 알아보겠다.


빅쿼리의 데이터셋 - 전국 요양병원 데이터

대학 과제를 위해 uipath RPA를 사용하여 크롤링 한 전국 요양병원 데이터세트이다.(상업적 이용 x)

https://www.g-health.kr/portal/health/pubHealthSearch/list.do?bbsId=U00198&menuNo=200452#totalcount 

 

이번 글에서는 필자의 빅쿼리의 프로젝트명,데이터세트명, 테이블의 구조만 파악하면 된다.(빨간 박스)

 구글 빅쿼리에 적제되어 있는 이 데이터를 코랩을 통해 불러오고, 테이블을 만드는 방법 2가지를 소개하겠다. 

 


  • google.cloud.bigquery라이브러리 사용하기

1. 인증하기

2. (선택사항) 데이터프레임을 대화형 데이터 테이블로 표시하는 google.colab.data_table 활성화 (매직 커맨드 사용)

3. google.cloud.bigquery 라이브러리의 쿼리 실행 매직커맨드 사용

코드
대화형 데이터프레임 사용시 결과
대화형 데이터프레임 사용 x 결과

4. google.cloud.bigquery 라이브러리를 사용하여 데이터를 pandas DataFrame로 바로 변환하기

데이터프레임 변환 후 인덱싱 예시

5. 테이블 만들기

테이블 만들기, 데이터 삽입하기
빅쿼리에서 테이블 확인하기!

 


  • Pandas-gbq 사용하기

pandas gbq 패키지를 사용하여 모든 종류의 RDBMS 연결해서 사용할수 있다. 빅쿼리도 gbq를 활용 가능!

1. gbq 패키지를 사용하여 데이터 읽기

-hos 테이블 읽어오기

2.  gbq 패키지를 사용하여 테이블 만들기

테이블 만들기
testtable2가 bigquery에 만들어진 결과 확인

 


google.cloud.bigquery와 pandas_gbq를 사용하여 구글 빅쿼리의 데이터를 읽어오고,

코랩에서 빅쿼리 테이블을 만드는 방법을 알아보았다.

 

 

참고문서

https://github.com/serithemage/DataScienctPractice/blob/main/BigQuery%EC%97%B0%EC%8A%B5.ipynb

https://pandas-gbq.readthedocs.io/en/latest/intro.html

 

Introduction — pandas-gbq 0.14.1+1.g97c9aaa documentation

By default, queries use standard SQL syntax. Visit the reading tables guide to learn about the available options. Adjusting log vebosity Because some requests take some time, this library will log its progress of longer queries. IPython & Jupyter by defaul

pandas-gbq.readthedocs.io

 

GitHub - serithemage/DataScienctPractice: 데이터 과학 연습용 리포지토리

데이터 과학 연습용 리포지토리. Contribute to serithemage/DataScienctPractice development by creating an account on GitHub.

github.com

댓글