본문 바로가기
Excell Skill UP!(3) 들어가며 엑셀 대표 유튜버이신 오빠두엑셀님께서 진행하시는 엑셀 스터디의 마지막 공부 내용을 정리한 글입니다. (공개 가능합니다.) 사소하게 시간을 많이 잡아먹던 작업을 한방에 해결하는 유용한 꿀팁이 많으니, 글을 읽으시는 분들께 도움이 되었으면 좋겠습니다. 엑셀강의 대표채널! 오빠두엑셀 - 오빠두엑셀 1980년 ~ 2040년 까지 양력/음력 날짜 데이터가 포함된 엑셀 양력 음력 변환표입니다. (음력간지, 율리우스적일 포함) ⭐️ 모든 일반 회원에게 무료로 제공되는 자료입니다. www.oppadu.com 1. 데이터 시각화 시각화의 핵심 요소 데이터는 내림차순으로 정렬 스파크라인과 차트를 적극 활용하여 한눈에 파악하도록 표시 전달하고자 하는 주요 메세지를 선정 천단위 기호 표시 필수 월별 합계 추가 시각화.. 2023. 3. 28.
Excell Skill UP!(2) 들어가며 엑셀 대표 유튜버이신 오빠두엑셀님께서 진행하시는 엑셀 스터디의 두 번째 공부 내용을 정리한 글입니다. (공개 가능합니다.) 사소하게 시간을 많이 잡아먹던 작업을 한방에 해결하는 유용한 꿀팁이 많으니, 글을 읽으시는 분들께 도움이 되었으면 좋겠습니다. 엑셀강의 대표채널! 오빠두엑셀 - 오빠두엑셀 1980년 ~ 2040년 까지 양력/음력 날짜 데이터가 포함된 엑셀 양력 음력 변환표입니다. (음력간지, 율리우스적일 포함) ⭐️ 모든 일반 회원에게 무료로 제공되는 자료입니다. www.oppadu.com 1. 자동 확장 목록상자 만들기 문제 상황 원가표에 새 제품명 추가 시, 기존 목록 상자에는 추가되지 않는 문제 상황 발생 해결 방법 (1) 표 생성 - 기존 원가표(셀)를 표로 만들기 단축키 : Ctr.. 2023. 3. 19.
Excel Skill UP!(1) 들어가며 엑셀 대표 유튜버이신 오빠두엑셀님께서 스터디를 3주간 진행한다는 소식을 듣고 얼른 신청하였습니다. 첫 번째 스터디의 공부 내용을 정리한 글입니다. (공개 가능합니다.) 사소하게 시간을 많이 잡아먹던 작업을 한방에 해결하는 유용한 꿀팁이 많으니, 글을 읽으시는 분들께 도움이 되었으면 좋겠습니다. 엑셀강의 대표채널! 오빠두엑셀 - 오빠두엑셀 1980년 ~ 2040년 까지 양력/음력 날짜 데이터가 포함된 엑셀 양력 음력 변환표입니다. (음력간지, 율리우스적일 포함) ⭐️ 모든 일반 회원에게 무료로 제공되는 자료입니다. www.oppadu.com 1. 빠른 채우기 기존 데이터 값의 패턴을 분석하여 데이터 값을 빠르게 채우는 기능 단축키 : Ctrl + E 2. 빠른 테두리 설정 테두리 설정 단축키 단축.. 2023. 3. 16.
구글 옵티마이즈를 이용한 A/B test (feat.맞춤 Click 이벤트 생성) 0. 들어가며 길었던 대학 생활의 마지막 수업에, 그동안 작성한 GA 관련 글을 1시간가량 발표하는 영광스러운 기회가 있었습니다. 학생들은 제 블로그를 자유롭게 살펴보고, 저는 5개의 블로그 글을 간단히 설명만 해주면 되는 발표였습니다. 발표를 준비하던 중 문득 '학생들이 제 블로그를 살펴볼 때 몰래 A/B 테스트를 진행하고, 소개하면 재밌겠는데..?'라는 생각이 들었고, 얼른 준비해 보았습니다. 이 글의 목적은 [실험 결과의 공유]가 아니라, 발표 때 자세히 설명드리지 못했던 [실험을 구성하는 방법]의 공유입니다. 많은 분들이 이 글로 A/B test 를 쉽게 세팅했으면 합니다. 글 내용 1. 맞춤 목표 설정 - 구글 태그 매니저 (태그매니저가 설치되어 있어야 합니다.) 2. A/B 테스트 세팅 - 구.. 2022. 12. 15.
BigQuery로 분석한 Hongwon's Data 블로그 [2] ※0. 들어가며 1편에선 5일간 블로그 사용자의 로그 데이터로 분석을 해보았습니다. 이번 글에선 10월 9일 ~ 11월 12일까지 35일간의 로그 데이터로 여러 분석을 진행해보겠습니다. 분석 주제 접근 요일과 시간대 알아보기 페이지 완독률 알아보기 성장 지수 ※ 중요: 본문에는 분석 코드를 생략했습니다. 코드를 보시려면 글 하단의 깃허브 링크에서 확인해주세요! 1. 데이터 개요 BigQuery로 분석한 Hongwon's Data 블로그 [1] 0. 들어가며 GA 분석 내용이 아닌 더 높은 레벨의 분석을 위해서 로우 데이터 분석이 필수적입니다. GA4는 Bigquery와 무료로 연동하여 로우 데이터를 받아볼 수 있습니다. 이번 글에선 SQL로 직접 제 khw742002.tistory.com 10월9일 ~ .. 2022. 11. 16.
BigQuery로 분석한 Hongwon's Data 블로그 [1] 0. 들어가며 GA 분석 내용이 아닌 더 높은 레벨의 분석을 위해서 로우 데이터 분석이 필수적입니다. GA4는 Bigquery와 무료로 연동하여 로우 데이터를 받아볼 수 있습니다. 이번 글에선 SQL로 직접 제 블로그 사용자의 로우 데이터를 분석해보겠습니다. 분석 주제 날짜별 사용자 수 대비 첫 사용자 비율은? 최다 조회 사용자의 특성은? 외국에서 접속한 사용자가 본 페이지는? ※ 참고 GA4와 Bigquery의 연동방법 강의자료 - GA4 - 빅쿼리(BigQuery) 연결하는 방법 GA4 - 빅쿼리(BigQuery) 연결 2가지 단계로 나뉩니다. 복잡한 내용이 아니므로 천천히 진행 하시면 됩니다. ---- STEP1 . 빅쿼리 개설 및 프로젝트 생성 STEP2 . 생성된 빅쿼리 프로젝트 - GA4 연결.. 2022. 10. 15.
[디스이즈] 앱 로그 데이터 분석 프로젝트 [3] 이전 과정 [디스이즈] 앱 로그 데이터 분석 프로젝트 [2] 이전 과정 [디스이즈] 앱 로그 데이터 분석 프로젝트 [1] 이전 과정 [디스이즈] 앱 사용자 데이터 분석 프로젝트 [시작] 1. 디스이즈란? 디스이즈는 동아대학교 컴퓨터공학과 개발팀이 만든 '동아 khw742002.tistory.com 1차 로그 설계 추가 회의 문제 해결 최종 로그 설계 1. 리뷰 텍스트 데이터 분석 (1) 리뷰 크롤링 개요 개발 팀이 충분한 공부 시간을 가지고 정확한 로그 개발을 하는 것을 대기하며, 과거부터 현재까지의 디스이즈가 사용자에게 어떤 경험을 주었을지 알아보기 위해 앱 리뷰 텍스트 분석을 진행하였습니다. 크롤링 도구 : UI Path 크롤링 내용 : 플레이 스토어 - 디스이즈 리뷰 크롤링 프로세스 Flow cha.. 2022. 10. 8.
GA4 정복하기 [3] - 탐색 보고서로 분석한 Hongwon's Data 블로그 0. 들어가며 이전 글 의 '최다 조회수를 기록한 페이지'의 분석 결과는 '1편을 본 사용자가 대부분 2편으로 넘어갔을 것이다.'였습니다. 이번 글에서는 GA4의 탐색 보고서로 정말 사용자가 '1편'에서 '2편'으로 이동했을지 알아보겠습니다. 좌측 바의 '탐색' 에 접속하여 '비어있음'을 클릭하여 새 탐색 보고서를 만들어주세요. 탐색 분석 보고서의 첫번째 화면입니다. 좌측 바를 조정하여 분석해보겠습니다. 1. 경로 탐색 분석 탐색 보고서의 경로 탐색 분석 기법을 사용하여 유저들이 발생시키는 이벤트의 흐름을 알아보겠습니다. ① 기법 - '경로 탐색 분석'을 선택합니다. 제 블로그에 접속한 사용자는 'session_start' → 'page_view' → 'scroll'의 이벤트를 진행했습니다. 글 페이지에.. 2022. 10. 5.
GA4 정복하기 [2] - 기본 보고서로 분석한 Hongwon's Data 블로그 0. 들어가며 이전 글에서는 GA와 GA4가 무엇인지 알아보았습니다. 이번 글에서는 GA4 기본 분석 보고서를 활용하여 제 블로그의 사용자 데이터 분석을 하였습니다. (GA의 설치 방법은 다루지 않습니다.) 1. GA4 보고서 카테고리 위 사진은 제 블로그에 GA4를 설치 한 뒤, GA에 접속하면 보게 되는 첫 페이지(홈 카테고리)입니다. '홈 카테고리'는 '보고서 카테고리'의 요약본입니다. 저는 '보고서 카테고리'에 접속하여 GA4가 분석한 내용을 자세히 알아보겠습니다. 그리고 사실 '홈' 카테고리는 다음 단락의 '보고서' - 보고서 개요' 카테고리와 같은 내용이니, 이번 글에서 '홈' 카테고리 설명은 생략하겠습니다. 그럼, '보고서' 카테고리에 접속해보겠습니다. 2. '보고서'의 소 카테고리 '보고서.. 2022. 10. 3.
GA4 정복하기 [1] - GA4란 무엇인가? GA4를 알아보기 앞서, GA란? Google Analytics는 Google에서 무료로 제공하는 웹 로그 분석 툴입니다. Google Analytics를 웹사이트에 설치하여 방문자의 유입 소스나 사이트 내 행동과 같은 유용한 정보를 자동으로 수집하고 저장, 분석할 수 있습니다. GA의 역사 구글 애널리틱스는 2005년 'Urchin'이란 서비스로 시작했습니다. 이를 GA1이라 칭합니다. 이후 GA2를 거쳐 GA3 - universal Analytics 서비스가 '웹 로그 분석'을 무기로 지금까지 활용되고 있습니다. 하지만 2020년 구글은 2023년 7월까지 모든 GA3을 GA4로 전환시키겠다는 발표를 하였습니다. 그럼 GA4가 도대체 무엇이기에, 구글은 그러한 전환 계획을 가지고 있을까요? GA4의 .. 2022. 9. 28.
모여봐요 동물의 숲 데이터 분석 with BigQuery 매일 자기 전 30분 정도 '동물의 숲' 이란 게임을 하는 것이 제 오랜 루틴 중 하나입니다. 동물의 숲은 닌텐도 사의 게임으로, 최신버전인 '모여봐요 동물의 숲'은 무인도에 주민 동물들과 함께 섬을 개척하는 게임입니다. 무인도의 유유자적한 생활을 즐기고, 동물들과 대화하는 것이 게임의 전부이지만, 그 점을 저는 정말 좋아합니다. 오늘은 가벼운 마음으로 동물의숲 데이터를 활용한 데이터 분석을 해보겠습니다. 모여봐요 동물의 숲 데이터 분석 with bigquery 동물의 숲에는 여러 동물 주민들이 있습니다. 동물들은 각자 특성이 달라서, 플레이어들이 보편적으로 좋아하는 동물, 잠자리채로 쫓아내 버리고 싶은 동물들이 있습니다. 이번 분석에서는 빅쿼리를 활용하여 유저들이 어떤 동물들의 특성을 선호하고 있는지 .. 2022. 9. 18.
[디스이즈] 앱 로그 데이터 분석 프로젝트 [2] 이전 과정 [디스이즈] 앱 로그 데이터 분석 프로젝트 [1] 이전 과정 [디스이즈] 앱 사용자 데이터 분석 프로젝트 [시작] 1. 디스이즈란? 디스이즈는 동아대학교 컴퓨터공학과 개발팀이 만든 '동아대학교 스마트 캠퍼스' 애플리케이션입니다. 학사일정, khw742002.tistory.com 디스이즈 앱 UI 설명 정보구조도 작성 로그 설계의 목적 및 지표 설정 1. 1차 로그 설계 이전 글의 필요 로그에 이벤트 로그는 기능별 클릭 로그였습니다.따라서 앱의 각 기능 별로 클릭 로그를 설계했습니다. 그리고 필요 로그 중 유저 로그는 앱에 로그인 기능이 있었으므로 user_id 로그를 설계하여 접속한 유저가 누구인지 특정하기로 했습니다. 1차적으로 저희가 설계한 로그의 예시는 아래와 같았습니다. {“user_i.. 2022. 9. 3.
[디스이즈] 앱 로그 데이터 분석 프로젝트 [1] 이전 과정 [디스이즈] 앱 사용자 데이터 분석 프로젝트 [시작] 1. 디스이즈란? 디스이즈는 동아대학교 컴퓨터공학과 개발팀이 만든 '동아대학교 스마트 캠퍼스' 애플리케이션입니다. 학사일정, 학사공지, 교내식당메뉴, 순환버스, 도서관 좌석 수 등 학생들 khw742002.tistory.com 프로젝트 시작 이유 설명 1. 디스이즈 앱 UI 본격적인 프로젝트에 들어가기 앞서, 독자의 이해를 위해 디스이즈 앱을 간단히 알아보겠습니다. 디스이즈 앱은 위 사진과 같습니다. 각 페이지에는 학생들이 학교생활을 하며 필요한 정보를 알려주는 기능이 있습니다. '디스스탑이즈' 기능은 학교 캠퍼스 간 이동을 위한 셔틀버스의 현 위치를 알려주는 기능입니다. 2. 정보구조도 작성 디스이즈 앱은 컴퓨터 공학과의 개발 공부를 위한.. 2022. 8. 29.
[디스이즈] 앱 로그 데이터 분석 프로젝트 [시작] 1. 디스이즈란? 디스이즈는 동아대학교 컴퓨터공학과 개발팀이 만든 '동아대학교 스마트 캠퍼스' 애플리케이션입니다. 학사일정, 학사공지, 교내식당메뉴, 순환버스, 도서관 좌석 수 등 학생들이 학교 생활에서 필요한 정보를 보여주는 기능이 있습니다. 구글 플레이스토어/앱스토어 첫 배포 이후 현재까지 1만 이상의 다운로드 수를 기록하며, 학생들의 학교생활을 도와주고 있습니다. 2. 현상황 2019년 코로나 바이러스의 확산으로 인해 학교 생활의 비중이 줄어들고, 재학생 간의 입소문의 부재로 디스이즈 앱의 명성이 줄어들어 사용자 수가 줄어들고 있습니다. 그리고 앱 리뉴얼 개발 이후 로그 개발이 되어있지 않아, 앱 사용자의 행동이 기록되지 않고 있었습니다. 3. 디스이즈 앱 사용자 분석 프로젝트 저를 포함한 4명이 .. 2022. 8. 19.
에이블리(ABLY)의 "샥-출발" - AARRR 분석 이전 글에서 AARRR에 대해 알아보았다. 이번 글에서는 '에이블리의 샥-출발' 서비스를 AARRR 방법론을 기준을 분석해보며 실습해보았다. AARRR이란? 1. 지표란? AARRR을 알아보기에 앞서, 지표 (metric)가 무엇인지 알아야 한다. 지표란 로그를 특정 기준에 따라서 요약한 숫자를 말한다. ex) 클릭 수 , 채택률, 문의 수 기존 업무에서 지표를 관리하는 khw742002.tistory.com 에이블리 샥-출발 알아보기 분석에 앞서 에이블리는 어떤 기업인지, 에이블리의 샥-출발은 어떤 서비스인지 알아보겠다. 1) 에이블리 에이블리는 온라인 동영상 서비스(OTT) ‘왓챠’의 공동 창업자 출신인 강석훈 대표가 세운 여성 패션 플랫폼이다. 출시 후 3년여 만에 누적 거래액 1조원, 누적 다운로.. 2022. 8. 19.
AARRR이란? 1. 지표란? AARRR을 알아보기에 앞서, 지표 (metric)가 무엇인지 알아야 한다. 지표란 로그를 특정 기준에 따라서 요약한 숫자를 말한다. ex) 클릭 수 , 채택률, 문의 수 기존 업무에서 지표를 관리하는 방법은 Task - based 관리법이었다. AARRR을 알아보기 전에 간단히 알아보자. 2. Task - based 지표관리 (업무 별 지표관리) 마케팅팀의 업무,운영팀의 업무, 개발팀의 업무, 사업팀의 업무들에서 나온 지표의 숫자들을 살펴보는 관리법 2-1. 예시 마케팅 팀 : SNS 마케팅 : 이번 주 Facebook 광고의 ROAS(광고비에 대한 매출 비율)는 200% 입니다. 개발 팀 : 앱 업데이트 : 월요일에 배포한 버전 3.0의 채택률은 60%입니다. 운영 팀 : 사용자 문의/.. 2022. 8. 5.
Superstore Sales Data - RFM 분석 프로젝트 및 쿼리 RFM이란? 회사 매출에 가장 중요한 인자를 R , F, M 으로 가정하여, 이 3가지 관점에서 고객의 가치를 분석하는 방법이다. R - Rencency : 최근 구매일 최근 무언가를 구매한 사용자를 우량 고객으로 취급 F - Frequency : 구매 횟수 사용자가 구매한 횟수를 세고, 많을수록 우량 고객으로 취급 M : Monetary : 구매 금액 합계 사용자의 구매 금액 합계를 집계하고, 금액이 높을수록 우량 고객으로 취급 위 세 가지 지표를 집계한 뒤에 고객군 별로 속성을 정의한다. 마케팅, 기획 팀은 서비스 개선을 검토하고, 고객에게 메일 최적화, 쿠폰 제공 등 고객군 별 맞춤 전략을 짜야한다. 데이터 셋 캐글 - Superstore Sales Dataset을 정제한 데이터 셋. https:/.. 2022. 6. 24.
[빅쿼리-SQL]고객 마스터 데이터를 카테고리화(성별,연령대)하여 집계하기 서비스를 제공하는 측에서 사용자와 관련된 정보로 알고 싶은 것을 정리해보면 다음과 같은 두 가지로 분류할 수 있습니다. 사용자의 속성(나이,성별,주소지) 사용자의 행동(구매한 상품, 사용한 기능, 사용하는 빈도) 이 중 사용자의 속성을 정리한 데이터를 '고객 마스터 데이터'라고 합니다. '고객 마스터 데이터'를 통하여 분석가는 '어떤 속성의 사용자가 우리 서비스를 사용 중인가?'를 알아볼 수 있습니다. 이번 글에서는 예제 '고객 마스터 데이터'를 사용하여 성별, 연령별로 구분하고 이를 '카테고리화' 하는 방법을 알아보겠습니다. 샘플 데이터 의 예제 데이터 셋을 사용하였습니다. 테이블 명 : mst_users user_ iD : 고객 ID Sex : 고객의 성별 birth_date : 고객의 생년월일 re.. 2022. 6. 21.
그로스 해킹이란? - 리그 오브 레전드와 오버워치의 차이점 그로스 해킹이란? 데이터를 기반으로 서비스/비즈니스에서 마주한 문제를 풀어 제품 및 서비스를 지속적으로 개선시키고, 서비스의 성장/성공을 도모하는 것 우선, 성공하는 서비스를 만들기 위해서는 다음과 같은 항목이 필요하다. 1) 좋은 아이디어 2) 안정적인 개발 3) 예쁜 디자인 4) 효과적인 마케팅 하지만 이런 제품이 엄청난 속도로 제품 및 서비스가 생성되고 있는 상황에, 우리 제품이 선택되는 것은 하늘의 별따기인 상황 그렇다면 어떻게 하면 이 레드오션 속에서 성공할 수 있는가? 그 해답은 바로 '그로스해킹' 게임: 리그 오브 레전드(이하 롤)와 오버워치를 비교해보자 1. 롤 개요 : 명실상부 대한민국 대표 게임 현재 : 2012년 한국 론칭을 시작으로 2022년 현재까지 최고의 자리를 유지하고 있음 2.. 2022. 6. 5.
SQL 코딩 테스트 연습 사이트 추천 및 후기 다른 언어는 몰라도 SQL 만큼은 자유자재로 사용하고 싶은 욕심이 있다. 하지만 혼자서 SQL을 연습하기에는 우선 연습에 적합한 테이블을 직접 만드는 것에 한계가 있고, 혼자 공부하다 보면 쓰던 쿼리문만 계속 쓰게 되는 단점이 있었다. 따라서 다양한 문제와 다양한 데이터가 정리되어 있는 SQL 코딩 테스트 연습 사이트 이용하면 좋은데, 이번 글에서는 SQL을 연습하기 좋은 사이트 추천과 그 중 '프로그래머스' 사이트의 풀이 후기를 남기겠다. 1. 프로그래머스 https://programmers.co.kr/learn/challenges?tab=all_challenges 코딩테스트 연습 기초부터 차근차근, 직접 코드를 작성해 보세요. programmers.co.kr 프로그래밍 언어를 MySQL 또는 Orac.. 2022. 5. 15.
[빅쿼리 - SQL] 샘플 매출 데이터로 Z 차트 구성하기 매출의 성장 또는 쇠퇴를 다양한 각도에서 살펴보기 위해 Z 차트를 활용하는 것은 매우 좋은 방법이다. 이번 글에서는 Z차트의 정의와 샘플 데이터 셋을 빅쿼리 SQL을 통해 구성하는 법을 알아보겠다. Z 차트란? '월차매출,'매출누계','이동년계'라는 3가지 지표로 구성되어, 계절변동의 영향을 배제하고 트렌드를 분석하는 방법이다. 이를 통해 데이터의 단기적 추이(매출누계)와 장기적 추이(이동년계)를 알 수 있다. 월차매출 : 월별 매출 합계 매출누계 : 해당 월의 매출에 이전 월까지의 매출 누계 (ex : 2018년 03월 기준 ---> 2018년 1월, 2월, 3월 매출의 합) 이동년계 : 해당 월의 매출에 과거 11개월의 매출을 합한 값 (ex : 2018년 3월 기준 ---> 2017년 2월 ~ 20.. 2022. 5. 12.
[빅쿼리-SQL] 매출 데이터 분석 '한방 정리' 쿼리 매출 데이터를 급하게 분석해 달라는 요구에 신속하게 대응하기 위해서는 기준점이 되는 매출 지표를 알고 있어야 한다. 이번 글에서는 기본적인 매출 지표엔 어떤 것이 있는지 모르는 학생들과, 신속하게 매출 분석을 해야 하는 분석가들을 위해 매출 분석의 기준이 되는 매출 지표를 알아보고, 그것을 SQL 문으로 작성하는 방법을 알아보겠다. 샘플 데이터 캐글-Superstore Sales Dataset을 정제한 데이터 셋입니다. 출처 : https://www.kaggle.com/datasets/rohitsahoo/sales-forecasting 데이터 세트 : ch4 테이블 명 : sale_data Date(date) : 주문 일자 Order_id(string) : 주문 ID Customer_id(string) .. 2022. 5. 9.
[빅쿼리 - SQL]OVER 절과 ORDER BY로 순서 정의하기(row_number,rank,dense_rank, lag,lead 함수 사용) ↓↓↓ 샘플데이터를 아래 결과값처럼 나타내기 위해선 어떤 함수를 어떻게 사용해야 할까? 결과값을 자세히 보면 크게 4 부분으로 나눌 수 있다. 이번 글에서는 위 4부분을 구현하는 방법을 알아보겠다. 1. 기존 테이블의 열들(설명x) 2. 순위를 메기는 열들 row_number 열 : 점수 순위로 유일한 순위를 붙임 ROW_NUMBER() OVER(ORDER BY score DESC) rank 열 : 같은 순위가 있을 때 같은 순위 다음 순위를 건너뛰고 순위를 붙임 RANK() OVER(ORDER BY score DESC) dense_rank열 : 같은 순위를 허용해서 순위를 붙임 dense_rank() OVER(ORDER BY score DESC) row_number, rank, dense_rank의 기.. 2022. 5. 1.
[빅쿼리 - SQL] OVER 절과 PARTITION BY 이번 글에서는 PARTITION BY에 대해서 알아보겠다. 그전에, 이것과 함께 항상 등장하는 OVER 절에 대해서도 알아보겠다. 샘플 데이터 1. OVER 절은 왜 사용하는가? 위와 같은 상황은 (CATEGORY : 단일 칼럼), (SUM(SCORE) : 집계 칼럼)을 함께 사용했기 때문에 발생하는 문제이다. 단일 칼럼은 집계 칼럼과 함께 사용될 수 없기 때문에, 이를 함께 쓰려면 서브 쿼리를 사용해야 한다. 하지만 서브쿼리 때문에 쿼리는 매우 지저분 해진다. 이를 깔끔하게 해결해 주는 것이 바로 over 절! 위와 같은 서브 쿼리를 over 을 사용하여 한방에 깔끔하게 할 수 있다. 그런데, 뭔가 이상하다. 합을 구하려면, category 별로 합을 구해야 어색하지 않은데, 위의 sum(score)o.. 2022. 4. 29.
[빅쿼리-SQL] 테이블 만들기! (create table) 빅쿼리로 데이터를 만들기 위해 일반적인 방법으로 테이블을 만들려다가는 실패를 맛볼 수 있다. 오늘은 빅쿼리로 태이블을 만들기 위한 가장 기본적인 방법을 빠르게 소개해 보겠다. 1. sql 입력 창에서 그냥 만들어본다 ---> 실패 경험 2. 프로젝트 이름 옆의 점 세개 클릭 - 데이터세트 만들기 클릭 빅쿼리는 '데이터 세트' 라는 개념이 있다. 데이터 세트란 테이블의 모아놓은 세트이다. 이때문에 데이터세트를 만들지 않고 테이블을 만들면 오류가 뜨는 것! 3. 데이터세트 id를 만들고 위치 만료설정은 건들이지 안아도 됨! 데이터 세트 ID는 데이터 세트의 이름 - 테이블 집합을 잘 나타낼 수 있는 단어로 적으면 좋다. 테이블 위치는 따로 설정하지 않을 경우 기본값 (US)으로 지정된다. 아마 이 글을 보는.. 2022. 4. 29.
[빅쿼리 - SQL]를 사용하여 IP 데이터 다루기(cast,pow,concat,lpad 함수 사용) 로그데이터는 IP 데이터가 필수적으로 포함되므로, ip 데이터를 자유롭게 핸들링 하는 능력은 매우 중요하다. 이번 시간에는 빅쿼리를 사용하여 ip 데이터를 핸들링하는 3가지 방법을 알아보겠다. 1.ip 주소에서 4개의 10진수 부분을 추출하기 첫번째 방법으로는 ip 주소를 정수 자료형으로 변환한 후 ip 주소에 있는 4개의 10진수 부분(점으로 구분된 각각의 값)을 정수 자료형으로 추출해보겠다. 새로운 함수는 cast 함수이다. cast 함수란 값의 유형을 변환시켜주는 함수이다. cast('기존값' as 변환하고싶은 유형) (위 예에서는 int64로 변환시킴) 2. 추출한 4개의 10진수를 정수 자료형으로 표기하는 법 추출한 정수 자료형을 2^24, 2^16, 2^8, 2^0을 곱한 후 모두 더해주면 정.. 2022. 4. 29.
[빅쿼리 - SQL]를 사용하여 매출 데이터 다루기(case문,sign함수,coalesce,round함수) 데이터를 SQL 을 이용하여 목적에 따라 정리하거나, 레코드의 다른 값을 조합해서 새로운 값을 집계하기 위해 우리는 SQL을 배운다. 그것이 바로 '지표 정의' 이다. 이번 시간에는 샘플 매출 데이터에서 '지표정의'를 하는 여러 방법에 대해 소개하겠다. 샘플 데이터 지표1 - 분기별 매출 증감 판정하기 새로 등장하는 형식인 case문 과 sign 함수. case는 일반적인 if 문이라고 생각하면 편한데, case 문 안에 'when 조건 식' 이 참이면 'then 결과값', 거짓이면 다음 코드로, 모든 조건식이 만족 안될때는 'else 결과값' 도출 end 로 마무리 되는 형식이다. 어렵지 않으니 이해하기는 쉬울 것이라고 생각된다. sign 함수는 값이 양수면 1, 0이면 0, 음수면 -1을 도출하는 함.. 2022. 4. 29.
[빅쿼리 - SQL]를 사용하여 날짜/타임스탬프 다루기(current_data, current_timestamp, substr 함수) 이번 글에서는 지난 시간에 다룬 샘플 로그 데이터 중 stamp 열을 사용해서 시간 데이터를 다루어 보겠다. 시간 데이터의 인스턴스는 'DATE' 와 'TIMESTAMP'로 나뉜다. 이 둘의 차이점을 알기 위해 '현재 날짜'와 '현재 타임스탬프'를 알아보는 함수를 사진으로 결과와 함께 보자 현재 날짜를 나타내는 함수 : CURRENT_DATA 현재 타임 스탬프를 나타내는 함수 : CURRENT_STAMP date 와 time stamp 의 차이를 한눈에 알 수 있었다. 단, 빅쿼리의 경우 타임 스탬프가 UTC 시간을 나타내므로, 한국은 UTC + 9를 해야한다. 그렇다면, 우리의 로우 데이터의 stamp 열은? 로우 데이터의 stamp는 내용물은 타임 스탬프 같았지만, 유형은 사실 string(문자)이었.. 2022. 4. 29.
[빅쿼리 - SQL]를 사용하여 URL에서 요소 추출하기(host, split 함수) 분석 형장에서는 서비스 런칭 때 로그 조건과 분석 요건을 제대로 검토하지 못하고, 일단 최소한의 요건으로 레퍼러와 페이지 URL을 저장해 두는 경우가 있다. 그리고 이후에 저장한 URL을 기반으로 요소들을 추출하는데, 이번 글에서 샘플 데이터를 활용하여 URL에서 요소들을 추출 하는 법을 알아보겠다. 샘플 데이터 1. 레퍼러로 어떤 웹 페이지를 거쳐왔는지 판별하기 어떤 웹페이지를 거쳐 넘어왔는지 판별 할때는 레퍼러를 집계한다. 하지만, 이를 위 샘플 데이터처럼 페이지 단위로 집계하면 밀도가 너무 작아 복잡해지기 쉽다. 따라서 '호스트'단위로 집계하는 것이 일반적인데, 구글 빅쿼리에는 URL에서 '호스트 이름의 패턴'을 추출하는 함수를 사용할 수 있다. 이처럼 net.host 함수를 사용하여 URL 에서 .. 2022. 4. 29.
업무 데이터와 로그 데이터 데이터 분석 리포트를 작성하기 전, 내가 지금 어떤 종류의 데이터를 가지고 있는지부터 파악하면 '가능한 것', '불가능한 것'을 명확히 할 수 있습니다. 이번 글에는 데이터를 크게 두 가지로 나누고 그 특성을 알아보겠습니다. 우리가 '옷을 구매할 때'를 상상해 볼까요? 1. 구매자는 온라인에서 띄워주는 광고를 보고 옷에 관심을 가진다. 2. 구매자는 온라인, 오프라인에서 옷을 산다. 두 단계로 간단하게 요약이 가능합니다. 하지만 이 과정에서도 데이터는 발생합니다. 1번 과정에서 구매자가 광고를 보고 구매 사이트를 접속할 때 2번 과정에서 구매자가 옷을 구매하고 pos기로 계산할때 1번 데이터를 '업무에 직접적으로 필요하지 않지만 분석을 위해 추출해야 하는 데이터' 2번 데이터를 '업무에 필요한 데이터'라.. 2022. 4. 26.