본문 바로가기
[AWS]AWS 기반 데이터분석 파이프라인 구축 - Analytics on AWS 워크숍 [시작] ETL vs ELT 글 에서 원시데이터가 어떤 과정을 통해 정제되는지 알아보았다. 이번 글에서는 AWS를 활용하여 직접 그 과정을 실습해보겠다. AWS 서비스를 사용하여 데이터 수집(데이터 엔지니어링)부터 시각화(데이터 분석) 까지 모두 다루는 매우 중요한 프로젝트임을 명심하자 Analytics on AWS workshop Process 사용 서비스와 간략 설명 Amazon Kinesis : 스트리밍 데이터(실시간 데이터) 수집, 처리 서비스 Amazon S3 : 클라우드 스토리지 서비스 Aws Glue : 서버리스 데이터 통합 서비스 Amazon Athena : S3에 저장된 데이터를 분석할 수 있는 대화식 쿼리 서비스 Amazon EMR : 대규모 분산 데이터 처리작업 클라우드 빅데이터 플랫폼 AWS.. 2022. 5. 22.
ETL vs ELT 초보 데이터 분석가들을 위한 가장 쉬운 설명 데이터 분석가 채용공고를 보다 보면, ETL , ELT 능력을 갖춘 인재를 찾는다는 글이 많다. 항상 정리된 데이터만 보는 초보 데이터 분석가들에게는 이 용어가 와닿지 않을 수 있는데, 오늘은 ETL 과 ELT가 무엇인지 알아보고, 그 차이점은 무엇인지 알아보겠다. 단, 누구나 이해할 수 있게 쉽게 설명하므로 비약이 있을 수 있다. E, T, L 이란? E / EXTRACT / 추출 : 원본 데이터 소스(데이터 베이스, ERP, Web 등)에서 데이터를 뽑아냄 T / TRANSFORM / 변환 : 데이터를 예쁘게 변환 L / LOAD / 적재 : 데이터를 데이터 저장소에 저장 ETL 이란? 추출 ->변환 -> 적재 순으로 데이터를 처리한다. 1. 여러 데이터 소스에서 정리되지 않은 데이터들을 막 뽑아낸다.. 2022. 5. 21.
SQL 코딩 테스트 연습 사이트 추천 및 후기 다른 언어는 몰라도 SQL 만큼은 자유자재로 사용하고 싶은 욕심이 있다. 하지만 혼자서 SQL을 연습하기에는 우선 연습에 적합한 테이블을 직접 만드는 것에 한계가 있고, 혼자 공부하다 보면 쓰던 쿼리문만 계속 쓰게 되는 단점이 있었다. 따라서 다양한 문제와 다양한 데이터가 정리되어 있는 SQL 코딩 테스트 연습 사이트 이용하면 좋은데, 이번 글에서는 SQL을 연습하기 좋은 사이트 추천과 그 중 '프로그래머스' 사이트의 풀이 후기를 남기겠다. 1. 프로그래머스 https://programmers.co.kr/learn/challenges?tab=all_challenges 코딩테스트 연습 기초부터 차근차근, 직접 코드를 작성해 보세요. programmers.co.kr 프로그래밍 언어를 MySQL 또는 Orac.. 2022. 5. 15.
[빅쿼리 - SQL] 샘플 매출 데이터로 Z 차트 구성하기 매출의 성장 또는 쇠퇴를 다양한 각도에서 살펴보기 위해 Z 차트를 활용하는 것은 매우 좋은 방법이다. 이번 글에서는 Z차트의 정의와 샘플 데이터 셋을 빅쿼리 SQL을 통해 구성하는 법을 알아보겠다. Z 차트란? '월차매출,'매출누계','이동년계'라는 3가지 지표로 구성되어, 계절변동의 영향을 배제하고 트렌드를 분석하는 방법이다. 이를 통해 데이터의 단기적 추이(매출누계)와 장기적 추이(이동년계)를 알 수 있다. 월차매출 : 월별 매출 합계 매출누계 : 해당 월의 매출에 이전 월까지의 매출 누계 (ex : 2018년 03월 기준 ---> 2018년 1월, 2월, 3월 매출의 합) 이동년계 : 해당 월의 매출에 과거 11개월의 매출을 합한 값 (ex : 2018년 3월 기준 ---> 2017년 2월 ~ 20.. 2022. 5. 12.
[빅쿼리-SQL] 매출 데이터 분석 '한방 정리' 쿼리 매출 데이터를 급하게 분석해 달라는 요구에 신속하게 대응하기 위해서는 기준점이 되는 매출 지표를 알고 있어야 한다. 이번 글에서는 기본적인 매출 지표엔 어떤 것이 있는지 모르는 학생들과, 신속하게 매출 분석을 해야 하는 분석가들을 위해 매출 분석의 기준이 되는 매출 지표를 알아보고, 그것을 SQL 문으로 작성하는 방법을 알아보겠다. 샘플 데이터 캐글-Superstore Sales Dataset을 정제한 데이터 셋입니다. 출처 : https://www.kaggle.com/datasets/rohitsahoo/sales-forecasting 데이터 세트 : ch4 테이블 명 : sale_data Date(date) : 주문 일자 Order_id(string) : 주문 ID Customer_id(string) .. 2022. 5. 9.
[구글 빅쿼리] - [구글 코랩] 연동법(google.cloud.bigquery, pandas_gbq) 빅쿼리에서 SQL을 다루다 보면 이를 코랩에서 사용하여, 데이터 분석의 흐름을 자연스럽게 나타내고 싶다는 생각이 든다. 따라서 이번 글에서는 빅쿼리를 코랩에서 사용할 수 있는 방법을 알아보겠다. 빅쿼리의 데이터셋 - 전국 요양병원 데이터 대학 과제를 위해 uipath RPA를 사용하여 크롤링 한 전국 요양병원 데이터세트이다.(상업적 이용 x) https://www.g-health.kr/portal/health/pubHealthSearch/list.do?bbsId=U00198&menuNo=200452#totalcount 이번 글에서는 필자의 빅쿼리의 프로젝트명,데이터세트명, 테이블의 구조만 파악하면 된다.(빨간 박스) 구글 빅쿼리에 적제되어 있는 이 데이터를 코랩을 통해 불러오고, 테이블을 만드는 방법 2.. 2022. 5. 8.
[ADsP] 제 30회 ADsP 합격 및 후기 (2편) 시험 치기 전 나의 상황 1편에서는 시험 개요와 국룰 공부방법에 대해 소개하였다. 1편의 말미에서 나는 '국룰 공부법'을 추천하지 않는다고 말 했는데, 이번 2편에서는 내가 직접 공부를 하고 시험을 치며 느낀점과 연관지어 그 이유를 설명하겠다. 시험에 관련한 기본지식은 아주 기초적인 통계지식, R 사용 경험 뿐이었다. 하지만 아무것도 모르는 비전공자 of 비전공자와도 크게 다르지 않은 지식수준이었다. 단지 용어가 어색하지 않다는 정도이지, 그정도는 ADsP 공부를 하면 다들 익숙해 진다. 시험 공부 시작에 앞서 '내가 ADsP를 취득하려고 하는 솔직한 이유'에 대해 생각해 볼 필요가 있다. 대부분의 사람들이 ADsP를 '취업에 결정적인 스펙'이라고 생각하지 않을 것이다. 솔직하게, '이게 필요한건지..... 2022. 5. 3.
[ADsP] 제 30회 ADsP 자격증 소개 및 합격 후기 (1편) 신청방법 ADsP 시험은 한국데이터산업진흥원에서 시행하는 데이터분석 준전문가 자격검정 시험 https://www.dataq.or.kr/www/main.do 데이터자격시험 카드결제/계좌이체 환불 환불 요청시 즉시환불 www.dataq.or.kr 위 링크로 들어가서 로그인 한 후 ADsP 시험 신청 접수비는 5만원이며, 시험 약 1달 전부터 1주일간 접수를 받기 때문에 미리미리 접수해야 한다. 아래 글 목차대로 설명 드리겠습니다. 목차 1. 국룰 도서 알아보기 : 대부분 사용하는 학습 도서 2. 국룰 공부법 알아보기 : 대부분의 공부법 3. TIP 국룰 도서 알아보기 '국룰 책' 부터 소개하자면 ADsP 의 정석! '파랭이' 라고 불리우는 ADsP 데이터 분석 준전문가 - 데이터에듀 책이다. 많은 사람들이 .. 2022. 5. 3.
[SQLD] 43회 시험 소개, 후기 및 공부방법 2021.12.29 제 이전 블로그에서 작성 한 글을 옮겨온 글 입니다. SQLD 43회에 합격했다. 시험은 생각보다 쉬웠다! 이 글을 읽고 시험을 준비하는 사람을 위해 내 공부 방법을 소개 하겠다. 1. 시험 소개 https://www.dataq.or.kr/www/main.do SQLD란 한국데이터산업진흥원에서 진행하는 국가공인 SQL자격증이다. 오늘날 기업 또는 조직의 정보화에 있어서 관계형 데이터베이스는 거의 대부분이라 해도 과언이 아닐 정도로 데이터 저장소의 대부분을 차지하고 있다. 때문에 SQL의 수행 원리를 깊이 있게 이해하고 제대로 구사할 수 있는 전문적 지식을 갖춘 인재를 양성하기 위해 시행한다. 시험의 세부 과목은 1과목 : 데이터 모델링의 이해, 2과목 : SQL 기본 및 활용으로 이루.. 2022. 5. 3.
[빅쿼리 - SQL]OVER 절과 ORDER BY로 순서 정의하기(row_number,rank,dense_rank, lag,lead 함수 사용) ↓↓↓ 샘플데이터를 아래 결과값처럼 나타내기 위해선 어떤 함수를 어떻게 사용해야 할까? 결과값을 자세히 보면 크게 4 부분으로 나눌 수 있다. 이번 글에서는 위 4부분을 구현하는 방법을 알아보겠다. 1. 기존 테이블의 열들(설명x) 2. 순위를 메기는 열들 row_number 열 : 점수 순위로 유일한 순위를 붙임 ROW_NUMBER() OVER(ORDER BY score DESC) rank 열 : 같은 순위가 있을 때 같은 순위 다음 순위를 건너뛰고 순위를 붙임 RANK() OVER(ORDER BY score DESC) dense_rank열 : 같은 순위를 허용해서 순위를 붙임 dense_rank() OVER(ORDER BY score DESC) row_number, rank, dense_rank의 기.. 2022. 5. 1.
AWS 커뮤니티 5주차 정리 및 후기 aws 테크니컬 트레이너이신 정도현님께서 5주간 제게 가이드라인을 알려주었듯이, 한국의 경영정보학과 학생들이 제 블로그를 보고 '데이터 분석가'가 되었으면 좋겠습니다. #정리 #1 희망이력서를 계속 업데이트하라 #2 배움이 없을때 이직하라 #3 영어는 회화를 연습하라 https://www.mylanguageexchange.com/ My Language Exchange Language Learning Community for Safe Effective Practice www.mylanguageexchange.com #후기 마지막 세션에서는 '베스핀 글로벌' 기업의 교육 설명회가 있었기 때문에, 도현님께서 간략하게 정보를 나누어 주시고, 이번 커뮤니티가 마무리되었습니다.. 5주간 정말 뜻깊은 시간이었습니다... 2022. 5. 1.
[빅쿼리 - SQL] OVER 절과 PARTITION BY 이번 글에서는 PARTITION BY에 대해서 알아보겠다. 그전에, 이것과 함께 항상 등장하는 OVER 절에 대해서도 알아보겠다. 샘플 데이터 1. OVER 절은 왜 사용하는가? 위와 같은 상황은 (CATEGORY : 단일 칼럼), (SUM(SCORE) : 집계 칼럼)을 함께 사용했기 때문에 발생하는 문제이다. 단일 칼럼은 집계 칼럼과 함께 사용될 수 없기 때문에, 이를 함께 쓰려면 서브 쿼리를 사용해야 한다. 하지만 서브쿼리 때문에 쿼리는 매우 지저분 해진다. 이를 깔끔하게 해결해 주는 것이 바로 over 절! 위와 같은 서브 쿼리를 over 을 사용하여 한방에 깔끔하게 할 수 있다. 그런데, 뭔가 이상하다. 합을 구하려면, category 별로 합을 구해야 어색하지 않은데, 위의 sum(score)o.. 2022. 4. 29.
[빅쿼리-SQL] 테이블 만들기! (create table) 빅쿼리로 데이터를 만들기 위해 일반적인 방법으로 테이블을 만들려다가는 실패를 맛볼 수 있다. 오늘은 빅쿼리로 태이블을 만들기 위한 가장 기본적인 방법을 빠르게 소개해 보겠다. 1. sql 입력 창에서 그냥 만들어본다 ---> 실패 경험 2. 프로젝트 이름 옆의 점 세개 클릭 - 데이터세트 만들기 클릭 빅쿼리는 '데이터 세트' 라는 개념이 있다. 데이터 세트란 테이블의 모아놓은 세트이다. 이때문에 데이터세트를 만들지 않고 테이블을 만들면 오류가 뜨는 것! 3. 데이터세트 id를 만들고 위치 만료설정은 건들이지 안아도 됨! 데이터 세트 ID는 데이터 세트의 이름 - 테이블 집합을 잘 나타낼 수 있는 단어로 적으면 좋다. 테이블 위치는 따로 설정하지 않을 경우 기본값 (US)으로 지정된다. 아마 이 글을 보는.. 2022. 4. 29.
[빅쿼리 - SQL]를 사용하여 IP 데이터 다루기(cast,pow,concat,lpad 함수 사용) 로그데이터는 IP 데이터가 필수적으로 포함되므로, ip 데이터를 자유롭게 핸들링 하는 능력은 매우 중요하다. 이번 시간에는 빅쿼리를 사용하여 ip 데이터를 핸들링하는 3가지 방법을 알아보겠다. 1.ip 주소에서 4개의 10진수 부분을 추출하기 첫번째 방법으로는 ip 주소를 정수 자료형으로 변환한 후 ip 주소에 있는 4개의 10진수 부분(점으로 구분된 각각의 값)을 정수 자료형으로 추출해보겠다. 새로운 함수는 cast 함수이다. cast 함수란 값의 유형을 변환시켜주는 함수이다. cast('기존값' as 변환하고싶은 유형) (위 예에서는 int64로 변환시킴) 2. 추출한 4개의 10진수를 정수 자료형으로 표기하는 법 추출한 정수 자료형을 2^24, 2^16, 2^8, 2^0을 곱한 후 모두 더해주면 정.. 2022. 4. 29.
[빅쿼리 - SQL]를 사용하여 매출 데이터 다루기(case문,sign함수,coalesce,round함수) 데이터를 SQL 을 이용하여 목적에 따라 정리하거나, 레코드의 다른 값을 조합해서 새로운 값을 집계하기 위해 우리는 SQL을 배운다. 그것이 바로 '지표 정의' 이다. 이번 시간에는 샘플 매출 데이터에서 '지표정의'를 하는 여러 방법에 대해 소개하겠다. 샘플 데이터 지표1 - 분기별 매출 증감 판정하기 새로 등장하는 형식인 case문 과 sign 함수. case는 일반적인 if 문이라고 생각하면 편한데, case 문 안에 'when 조건 식' 이 참이면 'then 결과값', 거짓이면 다음 코드로, 모든 조건식이 만족 안될때는 'else 결과값' 도출 end 로 마무리 되는 형식이다. 어렵지 않으니 이해하기는 쉬울 것이라고 생각된다. sign 함수는 값이 양수면 1, 0이면 0, 음수면 -1을 도출하는 함.. 2022. 4. 29.
[빅쿼리 - SQL]를 사용하여 날짜/타임스탬프 다루기(current_data, current_timestamp, substr 함수) 이번 글에서는 지난 시간에 다룬 샘플 로그 데이터 중 stamp 열을 사용해서 시간 데이터를 다루어 보겠다. 시간 데이터의 인스턴스는 'DATE' 와 'TIMESTAMP'로 나뉜다. 이 둘의 차이점을 알기 위해 '현재 날짜'와 '현재 타임스탬프'를 알아보는 함수를 사진으로 결과와 함께 보자 현재 날짜를 나타내는 함수 : CURRENT_DATA 현재 타임 스탬프를 나타내는 함수 : CURRENT_STAMP date 와 time stamp 의 차이를 한눈에 알 수 있었다. 단, 빅쿼리의 경우 타임 스탬프가 UTC 시간을 나타내므로, 한국은 UTC + 9를 해야한다. 그렇다면, 우리의 로우 데이터의 stamp 열은? 로우 데이터의 stamp는 내용물은 타임 스탬프 같았지만, 유형은 사실 string(문자)이었.. 2022. 4. 29.
[빅쿼리 - SQL]를 사용하여 URL에서 요소 추출하기(host, split 함수) 분석 형장에서는 서비스 런칭 때 로그 조건과 분석 요건을 제대로 검토하지 못하고, 일단 최소한의 요건으로 레퍼러와 페이지 URL을 저장해 두는 경우가 있다. 그리고 이후에 저장한 URL을 기반으로 요소들을 추출하는데, 이번 글에서 샘플 데이터를 활용하여 URL에서 요소들을 추출 하는 법을 알아보겠다. 샘플 데이터 1. 레퍼러로 어떤 웹 페이지를 거쳐왔는지 판별하기 어떤 웹페이지를 거쳐 넘어왔는지 판별 할때는 레퍼러를 집계한다. 하지만, 이를 위 샘플 데이터처럼 페이지 단위로 집계하면 밀도가 너무 작아 복잡해지기 쉽다. 따라서 '호스트'단위로 집계하는 것이 일반적인데, 구글 빅쿼리에는 URL에서 '호스트 이름의 패턴'을 추출하는 함수를 사용할 수 있다. 이처럼 net.host 함수를 사용하여 URL 에서 .. 2022. 4. 29.
업무 데이터와 로그 데이터 데이터 분석 리포트를 작성하기 전, 내가 지금 어떤 종류의 데이터를 가지고 있는지부터 파악하면 '가능한 것', '불가능한 것'을 명확히 할 수 있습니다. 이번 글에는 데이터를 크게 두 가지로 나누고 그 특성을 알아보겠습니다. 우리가 '옷을 구매할 때'를 상상해 볼까요? 1. 구매자는 온라인에서 띄워주는 광고를 보고 옷에 관심을 가진다. 2. 구매자는 온라인, 오프라인에서 옷을 산다. 두 단계로 간단하게 요약이 가능합니다. 하지만 이 과정에서도 데이터는 발생합니다. 1번 과정에서 구매자가 광고를 보고 구매 사이트를 접속할 때 2번 과정에서 구매자가 옷을 구매하고 pos기로 계산할때 1번 데이터를 '업무에 직접적으로 필요하지 않지만 분석을 위해 추출해야 하는 데이터' 2번 데이터를 '업무에 필요한 데이터'라.. 2022. 4. 26.
데이터의 등장과 발전, 엔지니어와 분석가의 과제 1. 데이터의 등장 2010년만 해도 '데이터 사이언티스트'라는 용어는 '웹 애널리스트'라는 용어로 주목받았습니다. 웹 애널리스트는 웹 서버에 설치한 접근 분석도구를 사용하여 웹사이트에 기록된 로그 데이터를 분석하는 일을 하였습니다. 이러한 접근 분석도구 중 가장 큰 영향력을 보인 건 바로 '구글 애널리틱스' 분석가들에게 '방문 횟수, 유입 키워드, 이탈률 등 많은 지표를 보여주었습니다. 2. 데이터의 발전 데이터를 활용하려는 움직임이 점점 많아졌고, 구글 애널리틱스 외의 다른 접근 분석 도구들이 사용되었습니다. 여러 분야에서 데이터를 활용하니, 데이터도 점점 많아졌지만, 여러 데이터 집계 도구들이 섞여서 데이터가 여기저기 흩어졌습니다. 그래서 많은 회사들은 사용자 데이터, 구매 데이터 등의 업무 데이터.. 2022. 4. 26.
AWS 커뮤니티 4주차 세션 정리 및 후기 한국의 경영정보학과 학생들이 '데이터 분석가'라는 진로를 결정하고, 이 길을 나아갈 때 내 블로그가 좋은 가이드라인이 되었으면 한다. 경영정보학은 기본적인 코딩능력부터 기초 통계, spss, R, 비즈니스의 흐름, 기업의 매출 분석, 회계, 웹사이트 구축까지 다양하고 매우 넓은 범위를 공부하는 학문이지만, 학생 입장에서 자칫하면 길을 잃을 가능성이 매우 높다. 또 데이터분석의 등장으로 데이터 핸들링 능력을 갖추고, 확장하면 머신러닝, 딥러닝 능력까지 공부해야 하는 상황이다. 따라서 동아대학교 it 취업 동아리와 같은 가이드라인이 필수적이다. 이 글을 읽고 많은 경영정보학과 학생들이 '데이터 분석가'가 되었으면 한다. #정리 1. 노트북, 마크다운, 판다스는 미리미리 공부한다. 2. 전문가가 되고 싶다면 .. 2022. 4. 24.
구글 빅 쿼리(Google BigQuery) 시작하기 # 서론 '데이터 분석을 위한 'SQL 레시피' 도서를 기반하여, 데이터 분석을 위한 시스템으로 구글 빅쿼리를 시작하려는 사람들에게 그 사용법을 A-Z 알려주기 위해 이 글을 작성한다. # 구글 빅쿼리 시작하기 1. 로그인 - 무료로 시작하기 버튼 클릭 2. 개인 정보 및 결제정보 입력 결제 수단을 입력하는 것은 자동 가입을 방지하는 것 일 뿐, 무료 크레딧 사용 기간인 12개월이 지난 후에도 따로 유료 계정으로 변경하지 않으면 추가 결제되지 않습니다. TIP) 학교 아이디로 가입한다면 기존 300 크레딧에 + 100크레딧을 추가로 더 얻을 수 있음! 3. My First Projet 라는 프로젝트가 자동으로 생성되고, Google Cloud Platform(GCP)로 연결됨 ----> 사이드 바의 Bi.. 2022. 4. 18.
AWS 커뮤니티 3주차 정리 및 후기 나포함 한국의 많은 경영정보학과 학생들이 느끼는 감정인, '너무 넓고 얕게 배우는 것 같다..'라는 생각은 이제 끝났다. '데이터 분석가'라는 직업이 등장하면서, 이 직업의 전공이 '경영정보학과' 라고 당당하게 말할 수 있는 날이 올 것이라고 믿고 있다. 데이터분석가가 되기를 고민하는 경영정보학과 학생들에게 내가 참여하고 있는 AWS IT 취업 동아리의 내용이 도움이 되었으면 하는 마음에 블로깅을 한다. #정리 1. 경쟁력을 지니는 전문 영역을 정할 것(도메인을 정하라) 데이터 분석가 - 게임 데이터분석, 금융데이터분석, 바이오데이터분석 등.. 2. T자형으로 기술을 습득할 것 데이터 분석가의 Specialist - 전문 도메인 지식 - SQL - Pandas - 통계 방법론 - 데이터 시각화 데이터 분.. 2022. 4. 17.
AWS 커뮤니티 2주차 정리 및 후기 비전공 학부생이 데이터분석가 진로를 위해 공부한다는 것은 망망대해를 땟목 하나로 항해하는 것 같은 기분이다. 사실 데이터분석가가 되기위한 전공은 없는지도 모르겠다. (경영정보학과가 전공이 될수도..?) 그만큼 아직은 구체화되지 않은 분야이기 때문에, aws 테크니션 트레이너 님이 계신다는 건 크나큰 행운이다. 나만 이 행운을 가질 순 없으니, 어떤 경로로든 이 글을 보게 된 독자에게 나와 같은 행운을 느끼게 하기 위해 이 글을 쓴다! #정리 1. 타이핑 연습하기 단축키 사용하기 - 죽을 힘을 다해 단축키를 써라 (관련 내용 추후에 블로깅 할 예정) 2. 시간 확보 365일 무조건 확보 가능한 시간대가 언제인가? - 밤 9시~ 11시 시간에도 품질이 있다 - 집중 할 수 있는가?, 끊임없이 쓸 수 있는가?.. 2022. 4. 6.
가상 포트폴리오 작성기 # 후기 AWS IT 취업 동아리의 첫 번째 세션 핵심 내용, 가상 포트폴리오 작성을 진행하였다. - Hongwon's Future Portfolio 보러 가기 가상 포트폴리오를 작성하며 실무에서 원하는 데이터 분석가의 역량은, 내 생각과 매우 달랐다는 것을 깨달았다. 그동안 머신러닝을 잘 다루는 사람 = 데이터 분석가라고 생각하여, 머신러닝 공부에 무게를 두고 있었다. 하지만 채용공고를 아무리 뒤져봐도 머신러닝 이야기는 없었고, 불안한 마음에 도현님께 이 상황을 질문했다. 도현님이 답변으로 주신 한 칼럼을 통해 내가 그동안 다른 길로 가고 있었다는 것을 알 수 있었다. 그 칼럼에 대해서는 다음 글에서 정리할 예정이기에, 가장 핵심 문장이라 생각되는 문장만 스포 하겠다. While a data scien.. 2022. 4. 3.
AWS 커뮤니티 1주차 세션 정리 및 후기 #후기 "지금 당신의 유튜브 초기화면에 무엇이 떠있는지 보세요. 그것이 당신의 무의식입니다." 오늘 진행된 첫번째 세션에서 aws 트레이너이자 커뮤니티의 진행자이신 도현님께서 하신 말이다. 이 말을 듣고 들어가본 내 유튜브 첫 화면에는 각종 게임,아이돌,노래,예능만이 가득했다. 부끄러웠다. '뭣도 없으면서 뭐가 그렇게 자신만만하길래 노는 영상밖에 없나?' 나는 나에게 질문 할 수 밖에 없었다. 그래서 나는 커뮤니티 단톡방에 내 블로그를 올렸다. 아직은 도현님께서만 정보를 공유해주시는 카톡방이었지만, 나는 내 유튜브 알고리즘에 대해 속죄하는 기분으로 어색한 카톡방에 내 블로그를 올렸다. 다행히도 많은 분들께서 응원해주셨고, 이미 블로그를 멋지게 운영중이시던 분들께서도 카톡방에 본인의 블로그를 올렸다. 정말.. 2022. 3. 30.
통계학 기초 복습 데이터 분석 공부를 시작 하기 전에 1학년때 배운 기초통계학을 복습하기로 했다. 이와 관련하여 정말 좋은 자료가 있어서 영상을 공유하고, 공부 한 내용을 적어보기로 했다. 데이터 분석을 위한 통계 기초 개념 - 메타코드M (https://www.youtube.com/watch?v=YaCQrJCgbqg&ab_channel=%EB%A9%94%ED%83%80%EC%BD%94%EB%93%9CM) 요약 1. 통계 - 모집단 : 통계학에서 관심/조사의 대상이 대는 개체의 전체 집합 - 모수 : 모집단에 대한 수치적 요약 - 표본 : 모집단을 적절히 대표하는 모집단의 일부 - 통계량 : 표본에 대한 수치적 요약 2. 자료의 종류 (1) 범주형 자료 - 명목형 자료 : 단순히 속성을 분류하는 자료 (혈액형) - 순서형.. 2022. 3. 25.
AWS 동아리 사전 과제 AWS 데이터 과학 스터디의 첫 번째 사전 과제가 안내되었다. 간단한 설문 조사였지만 구체적인 답변을 해야 했기에 진지하게 설문에 임했다. 그중 가장 많은 시간이 소요된 것은 '데이터 분석가 역할을 지원하려는 이유는 무엇인가요?'라는 질문이었다. 이 질문에 답을 하기 위해서는 데이터, IT 직군이 산업에서 각각 어떤 역할을 하는지 알아야 했고, 왜 나는 데이터 분석가가 되고 싶은지 알아야 했다. 정리된 답변을 위해 많은 자료를 찾아보았고, 그중 가장 유익했던 자료 3가지를 소개, 요약하겠다. #요약 1. 데이터를 활용하는 다양한 직군 소개 - 카일스쿨 (https://zzsza.github.io/diary/2021/02/21/various-data-jobs/) 프로덕트 분석가(제품 분석가) : Produ.. 2022. 3. 23.
동아대학교 INSPIRE - AWS 커뮤니티 소개 세션 후기 및 내용 정리 ##첫 세션 후기 3월 15일 , 3월 17일 두 번에 걸쳐 동아대학교 INSPIRE - AWS 커뮤니티 첫 세션이 진행되었다. 첫 세션을 듣고 들은 생각은 '드디어 길을 찾았다!' 였다.지금까지 혼자서 중구난방으로 데이터 분석을 배운 터라 체계적으로 지식을 관리하지 못했고, 남은 지식도 몇 없다. 가장 인상 깊었던 부분을 말해보자면, '왜 자격증을 따고 있나요?'라는 멘토님의 물음이었다. 실제로 모집 공고에는 어떠한 자격증도 요구하지 않는다. 나 역시 이 세션을 듣기 한 시간 전에도 토익공부를 하고 있었고, SQLD, ADSP, 컴활 자격증을 지금까지 취득했다. 이런 자격증을 취득하여 내 실질적인 데이터 분석 실력이 늘었나? 솔직하게 절대 아니다. 자격증 준비는 일종의 도피처였다. 자격증 취득이 실력을.. 2021. 8. 14.