Data 26

[W12D2] Spark 소개 / 데이터 구조

Contents 빅데이터 정의와 예 하둡의 등장과 소개 Spark 소개 판다스와 비교 Spark 데이터프레임, 데이터셋, RDD Spark 개발 환경 Spark 맛보기 빅데이터의 정의와 예: 빅데이터란 무엇이며 어떤 예들이 있는가? 빅데이터의 정의1 “서버 한대로 처리할 수 없는 규모의 데이터” 2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data scientist인 존 라우저가 내린 정의. 분산 환경이 필요하느냐에 포커스! 판다스로 처리해야할 데이터가 너무 커서 처리가 불가능하다면 어떻게 할 것인가? 빅데이터의 정의2 “기존의 소프트웨어로는 처리할 수 없는 규모의 데이터” 대표적인 기존 소프트웨어 오라클이나 MySQL과 같은 관계형 데이터베이스 분산환경을 염두에 두지 않음 Scale-up 접근..

Data/Big Data 2021.07.29

[W12D1] Big Data 개요

Contents 1. 강사소개 2. 데이터 팀의 역할 3. 데이터 팀의 구성원 4. 데이터 팀의 조직구조 5. 모델 개발 시 고려할 점 6. 데이터 관련 교훈 2. 데이터팀의 역할: 데이터 팀은 어떤 역할을 수행하는가? 데이터 팀의 미션 신뢰할 수 있고 빠르게 이용가능한 데이터를 바탕으로 부가가치 생성 데이터 팀의 목표1 고품질의 데이터를 제공하여 정책 결정에 사용 결정과학(Decision Science)라고 부르기도 함. 그리고 이 일을 하는 사람을 데이터 애널리스트라고 부르기도 함. 데이터 참고 결정(data informed decisions)을 가능하게 함: 내가 가고싶은 방향이 있고, 이를 위해 데이터를 참고 vs. 데이터 기반 결정(data driven decisions): 내가 가고싶은 방향은..

Data 2021.07.19

[AI class W11 D5] SQL Analysis 5

Contents 1. 4일차 숙제 리뷰 2. 트랜잭션 소개와 실습 3. 기타 고급 문법 소개와 실습 4. 맺음말 1. 4일차 숙제 리뷰 1. 사용자별 처음과 마지막 채널 찾기 ROW_NUMBER를 활용해보자 (셀렉트된 레코드들에 특정 기준에 따른 일련번호를 부여하는 것) --1. CTE 방식으로 해결 WITH first AS ( -- 모든 사용자 별로 첫 번째 리턴 SELECT userid, ts, channel, ROW_NUMBER() OVER(PARTITION BY userid ORDER BY ts) seq FROM raw_data.user_session_channel usc JOIN raw_data.session_timestamp st ON usc.sessionid = st.sessionid ), ..

Data/SQL 2021.07.18

[AI class W11 D4] SQL Analysis 4

Contents 1. JOIN이란? 2. 다양한 종류의 JOIN 3. 3일차 숙제 리뷰 4. 숙제 1. JOIN이란? SQL의 조인은 두 개 혹은 그 이상의 테이블들을 공통 필드를 가지고 머지하는데 사용된다. 이는 스타 스키마로 구성된 테이블들로 분산되어있던 정보를 통합하는데 사용된다. 왼쪽 테이블을 LEFT, 오른쪽 테이블을 RIGHT라고 하자. JOIN의 결과는 방식에 상관없이, 양쪽 필드를 모두 가진 새로운 테이블을 만들게 된다. JOIN의 방식에 따라 다음 두 가지가 달라진다. 어떤 레코드들이 선택되는지 어떤 레코드들이 채워지는지 JOIN의 문법ex> SELECT A.*, B.* FROM raw_data.table1 A ____JOIN raw_data.table2 B ON A.key1 =B.key..

Data/SQL 2021.07.17

[AI class W11 D3] SQL Analysis 3

Contents 1. GROUP BY와 AGGREGATE함수 2. CTAS와 CTE 소개 데이터 품질 확인 3. 숙제 1. GROUP BY와 AGGREGATE함수 1. GROUP BY 테이블의 레코드를 그룹핑하여 그룹 별로 다양한 정보를 계산 두 단계로 이뤄짐 먼저 그룹핑 할 필드를 결정(하나 이상의 필드가 될 수 있음 ex. 월별, 채널별) GROUP BY로 지정(필드 이름을 사용하거나 필드 일련번호를 사용) 다음 그룹별로 계산할 내용를 결정 여기서 AGGREGATE 함수를 사용 COUNT, SUM, AVG, MIN, MAX, LISTAGG, .... 보통 필드 이름을 지정하는 것이 일반적 (alias -> as) 월별 세션수를 계산하는 SQL raw_data.session_timestampe를 사용 ..

Data/SQL 2021.07.07

[AI class W11 D2] SQL Analysis 2

Contents 1. 1일차 퀴즈 리뷰 2. Redshift 런치 데모 3. 예제 테이블 소개 4. SQL 소개 (DDL과 DML) 5. SQL 실습 환경 소개 6. SELECT 소개 2. Redshift 런치 데모 AWS Management 콘솔을 통해 Redshift 런치 먼저 region 부터 확인해야 함 (서울) Services -> Analytics -> Redshift Redshift 클러스터 정보 Node Type : 1 x dc2.large instance : 160GB colab에서 접근이 가능하도록 Publicly accessible 가능하게 해야 Host : ... Port number: ... Database name: ... 3. 예제 테이블 소개 1. 관계형 데이터 베이스 예제 ..

Data/SQL 2021.07.07

[AI class W11 D1] SQL Analysis 1

Contents 1. SQL의 중요성 2. 관계형 데이터베이스란? 3. SQL이란? 4. 데이터 웨어하우스란? 5. Cloud, AWS 소개 6. Redshift 소개 1. SQL의 중요성 데이터 관련 3개 직군(데이터 엔지니어, 데이터 분석가, 데이터 과학자) 모두에서 중요한 스킬셋 2. 관계형 데이터베이스란? 구조화된 데이터를 저장하고 질의할 수 있도록 해주는 스토리지 (이미지, 텍스트 등은 비구조화된 데이터) 엑셀 스프레드시트 형태의 테이블로 데이터를 정의하고 저장 테이블에는 컬럼(열)과 레코드(행)가 존재 관계형 데이터베이스를 조작하는 프로그래밍 언어가 SQL 테이블 정의를 위한 DDL(Data Definition Language) 테이블 데이터 조작/질의를 위한 DML(Data Manipulat..

Data/SQL 2021.07.06

kaggle 시작은 필사부터 - notebook grandmaster subinium님 자료

데이터 분석 경진대회 플랫폼 kaggle. 아직은 t academy 특강, 그리고 fast campus 빅데이터 분석가 양성 과정에서 파이널 과제로 kaggle 데이터를 활용하는 바람에 조금 접해본 게 다이다. 내 실력에 아직 경진 대회에 참여해서 의미 있는 결과를 나타낼 수는 없지만, 캐글 사이트에 올라있는 수많은 데이터셋들과 많은 학습자들의 노트북들을 material로 공부하는 것만으로 큰 도움이 될 것 같다. 그런데 캐글을 소개하는 사람들마다 공통으로 추천하는 것이 있었으니 바로 노트북 필사. 다른 사람들이 이미 만들어 놓은 데이터 분석 노트북을 처음에는 그저 따라 치는 것부터 시작하라는 것이다. 좋은 노트북도 수없이 많이 있지만, t-academy 특강 강사를 하셨던 subinium님이 학습하기 ..

Data/EDA 2021.05.21

[AI Class Day 16, 17] EDA TIL

감상 : 지난주 강의에 이어서 그나마 빅데이터 분석가 과정에서 배웠던 것을 다시 복습하는 시간이어서 좀 수월한 편이었다. 내가 원하는 분석을 하기 위해 지난주에 배운 numpy, pandas, matplotlib을 어떻게 활용할 수 있을지 생각해 내고, 바로 적용하는 것이 쉽지는 않아서, 예전 수업 자료 노트를 꺼내 정리하면서, 복습했다. + 추가 감상: 이후에 주말 특강 과제로 이 titanic 데이터로 kaggle competition에 submit 하는 미션을 했다. 타이타닉 데이터로 EDA 실습은 해본 적 있지만, 직접 생존율 예측 모델을 만들어서 결과를 submit한 적은 없었기 때문에 단시간 내에 결과를 내서 제출해보라고 하니까 허둥대게 되었다. 기존에 다른 사람들이 공개한 노트북 중에서 내가..

Data/EDA 2021.05.13

[AI class day13] 파이썬 매트플롯, 씨본 python matplotlib, seaborn TIL

감상 : 지난 시간에 배운 numpy와 pandas를 바탕으로 만든 표를 보다 직관적으로 인식하기 좋은 그래프로 보여주는 부분. 이 역시 에서 배웠던 내용에 복습이기는 하다. 그런데 numpy나 pandas와는 달리 차근차근 배웠던 기억이 없고, 이후에 EDA 과제를 하거나 ML report를 작성할 때도, 항상 어떻게 써야 내 의도에 맞는 그래프를 출력할 수 있는지 헷갈렸던 기억이다. 이번 수업에서 딱 2줄 부터 시작해서 한 줄씩 더해가며 그래프를 업그레이드하는 방식으로 진행한 수업이 내용을 이해하고, 외우는데 아주 효과적이었던 것 같다. matplotlib.pyplot function overview (공식) seaborn API reference (공식) matplotlib cheat sheets ..

Data/EDA 2021.05.07

[AI class day12] 파이썬 판다스 python pandas TIL

감상 : 어제에 이어 파이썬 라이브러리 판다스를 공부하고, 적용하는 연습을 해본 시간 마찬가지로 지난 데이터 분석 과정 수강 때 공부했던 내용이라 복습을 하는 정도였다. 2. 파이썬으로 데이터 주무르기, pandas pandas를 활용해서 데이터프레임을 다뤄봅시다. 수업에 사용된 covid 데이터 I. pandas 시작하기 import pandas as pd II. pandas로 1차원 데이터 다루기 - Series 1-D labeled array 인덱스를 지정해줄 수 있음 s = pd.Series([1,4,9,16,25]) s 0 1 1 4 2 9 3 16 4 25 dtype: int64 #인덱스 지정이 가능하기 때문에 딕셔너리로 생성이 가능함 t = pd.Series({'one':1, 'two': 2..

Data/Pandas 2021.05.05

numpy, pandas 연습 문제 링크

프로그래머스 AI 수업 멘토님이 추천해주신, numpy, pandas 연습 문제들을 모아놓은 링크 넘파이와 판다스 각각 101 문제씩 있고, 1번은 그냥 프린트 찍어라 수준의 아주 아주 쉬운 문제이기 때문에 쭉 아래로 훑어 가면서 보다가 '가물가물하다' 싶은 부분부터 보면서 연습문제를 풀어보면 좋을 것 같다. www.machinelearningplus.com/python/101-numpy-exercises-python/ 101 Numpy Exercises for Data Analysis The goal of the numpy exercises is to serve as a reference as well as to get you to apply numpy beyond the basics. The ques..

Data/Pandas 2021.05.03

[Kaggle] 시작하기 공부 참고 자료 모음- 데이터 분석 공부하기

개발 배우기를 마음먹고, 독학 공부 플랫폼 codecademy를 활용해서 제일 기초가 되고, 접근하기 쉽다는 웹프로그래밍부터 시작하려고, html, css, java script를 맛배기만 보다가 어찌저찌 하여 지금은 파이썬으로 하는 데이터 분석을 공부하고 있다. 서울시 개발자 취업 교육 플랫폼 SSAC에서 Fast Campus와 함께 진행하는 3개월짜리 데이터 분석가 양성 과정 교육 코스를 수강 중인데, 기본적인 파이썬 언어 문법을 배우고 나서 본격적인 '분석'이라는 것을 시작하게 되고 보니 [kaggle] 사이트에 들어가서 공부를 하란다. ssac.seoul.kr/course/course_view.jsp?id=22228&s_style=gallery&ch=course 꿈꾸는 개발자 데뷔코스, 싹 ‘싹’..

Data 2021.02.28