Data/Big Data 4

[W13D1] Spark ML Pipeline 과 Tuning

Spark MLlib 모델 튜닝: Spark MLlib가 제공해주는 모델 튜닝에 대해 배워보자 Spark MLlib 모델 튜닝 (ML Tuning) 최적의 하이퍼 파라미터를 선택하는 것 최적의 모델 혹은 모델의 파라미터를 찾는 것이 아주 중요 epoch, 학습률, decision tree의 최대 깊이 등이 하이퍼 파라미터가 될 수 있다. 하나씩 테스트해보는 것 vs. 다수를 동시에 테스트하는 것 모델 선택의 중요한 부분은 테스트 방법 교차 검증(Cross Validation)과 홀드 아웃(Train-Validation Split) 테스트 방법을 지원 보통 ML Pipeline과 같이 사용함. Spark MLlib 모델 테스트 모델 테스트 방법: 크게 2가지가 존재 교차 검증(Cross Validation..

Data/Big Data 2021.07.29

[W12D4] Spark MLlib

Spark MLlib 소개: Spark이 제공해주는 머신러닝에 대해 배워보자 Spark MLlib 머신러닝 관련 다양한 알고리즘, 유틸리티로 구성된 라이브러리 Classification, Regression, Clustering, Collaborative Filtering, Dimensionality Reduction 등 아직 딥러닝 지원은 미약 여기에는 RDD 기반과 데이터 프레임 기반의 두 버전이 존재 spark.mllib vs. spark.ml spark.mllib가 RDD 기반이고 spark.ml은 데이터 프레임 기반 spark.mllib는 RDD 위에서 동작하는 이전 라이브러리로 더 이상 업데이트가 안됨 항상 spark.ml을 사용할 것! import pyspark.ml Spark MLlib의 ..

Data/Big Data 2021.07.29

[W12D3] Spark SQL

SQL이란? SQL은 빅데이터 세상에서도 중요! 구조화된 데이터를 다루는 한 SQL은 데이터 규모와 상관없이 쓰임 모든 대용량 데이터 웨어하우스는 SQL 기반 Redshift, Snowflake, BigQuery, Hive Spark도 예외는 아님 SparkSQL이 지원됨 데이터 분야에서 일하고자 하면 반드시 익혀야할 기본 기술 관계형 데이터베이스 대표적인 관계형 데이터베이스 MySQL, Postgres, Oracle, … Redshift, Snowflake, BigQuery, Hive, … 관계형 데이터베이스는 2단계로 구성됨 가장 밑단에는 테이블들이 존재(테이블은 엑셀의 시트에 해당) 테이블들은 데이터베이스라는 폴더 밑으로 구성 테이블의 구조(스키마라고 부르기도 함) 테이블은 레코드들로 구성 레코드는..

Data/Big Data 2021.07.29

[W12D2] Spark 소개 / 데이터 구조

Contents 빅데이터 정의와 예 하둡의 등장과 소개 Spark 소개 판다스와 비교 Spark 데이터프레임, 데이터셋, RDD Spark 개발 환경 Spark 맛보기 빅데이터의 정의와 예: 빅데이터란 무엇이며 어떤 예들이 있는가? 빅데이터의 정의1 “서버 한대로 처리할 수 없는 규모의 데이터” 2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data scientist인 존 라우저가 내린 정의. 분산 환경이 필요하느냐에 포커스! 판다스로 처리해야할 데이터가 너무 커서 처리가 불가능하다면 어떻게 할 것인가? 빅데이터의 정의2 “기존의 소프트웨어로는 처리할 수 없는 규모의 데이터” 대표적인 기존 소프트웨어 오라클이나 MySQL과 같은 관계형 데이터베이스 분산환경을 염두에 두지 않음 Scale-up 접근..

Data/Big Data 2021.07.29