전체 글 182

[W13D4] NLP : 문서분류

문서 분류(Text Classification) 문서 분류란? (자연어 처리 중 가장 중요한 분야, 다양한 세부 응용 분야가 있음, 가장 흔히 접할 수 있는 분야) 텍스트를 입력으로 받아 텍스트가 어떤 종류의 범주에 속하는지를 구분하는 작업 이 자체가 하나의 과제일 수도 있고, 이 과제의 결과물이 다른 작업을 위한 input이 되기도 한다. 다양한 문서 분류 주제들 문서의 범주, 주제 분류 예: CS 논문의 CS 주제분류 (multi-label classification - 하나의 논문이 여러 개의 주제로 분류될 수도 있음) 이메일 스팸 분류 감성 분류 예 영화: 리뷰가 긍정적/부정적? 제품: 새로운 아이폰에 대한 대중의 반응? 정치: 이 정치인에 대한 사람들의 생각? 예측: 감성 분류를 기반으로 선거 ..

[W13D3] NLP : 단어 모델

언어모델 다음 문장 다음에 이어질 단어는? Please turn your homework -> "in" or "out"? 다음 두 문장 중에 나타날 확률이 더 높은 것은? all of a sudden I notice three guys standing on the sidewalk on guys all I of notice sidewalk three a sudden standing the 목표: 문장이 일어날 확률을 구하는 것 다음 문장 다음에 이어질 단어는? 다음 두 문장 중 나타날 확률이 더 높은 것은? 왜 필요한가? 기계번역 (machine translation) 중국어 大风을 영어로 번역한다면? P(high winds tonight) > P(large winds tonight) 맞춤법검사 (spel..

[W13D2] NLP 텍스트 전처리

자연어 처리: 텍스트 전처리 자연어 처리란 자연어의 의미를 컴퓨터로 분석해서 특정 작업을 위해 사용할 수 있도록 하는 것 응용분야 기계번역, 감성 분석, 문서 분류, 질의응답 시스템, 챗봇, 언어 생성(ex> GPT), 음성인식, 추천 시스템 등... 최근의 딥러닝 분야의 인기 성장은 컴퓨터 비전 분야의 발전과 성공의 영향이 컸다. 자연어 처리에서는 비전만큼의 성공을 거두지 못해왔다. 그러다가 비전에 사용하던 알고리즘을 자연어 문제에 적용시켜서 성능 향상이 이뤄지기 시작했고, 요즘에는 성공적인NLP의 기술(ex> transformer model, BERT model)을 컴퓨터 비전에 적용시켜 발전시키고 있다. 참고 자료 Speech and Language Processing: http://web.stan..

[W13D1] Spark ML Pipeline 과 Tuning

Spark MLlib 모델 튜닝: Spark MLlib가 제공해주는 모델 튜닝에 대해 배워보자 Spark MLlib 모델 튜닝 (ML Tuning) 최적의 하이퍼 파라미터를 선택하는 것 최적의 모델 혹은 모델의 파라미터를 찾는 것이 아주 중요 epoch, 학습률, decision tree의 최대 깊이 등이 하이퍼 파라미터가 될 수 있다. 하나씩 테스트해보는 것 vs. 다수를 동시에 테스트하는 것 모델 선택의 중요한 부분은 테스트 방법 교차 검증(Cross Validation)과 홀드 아웃(Train-Validation Split) 테스트 방법을 지원 보통 ML Pipeline과 같이 사용함. Spark MLlib 모델 테스트 모델 테스트 방법: 크게 2가지가 존재 교차 검증(Cross Validation..

Data/Big Data 2021.07.29

[W12D4] Spark MLlib

Spark MLlib 소개: Spark이 제공해주는 머신러닝에 대해 배워보자 Spark MLlib 머신러닝 관련 다양한 알고리즘, 유틸리티로 구성된 라이브러리 Classification, Regression, Clustering, Collaborative Filtering, Dimensionality Reduction 등 아직 딥러닝 지원은 미약 여기에는 RDD 기반과 데이터 프레임 기반의 두 버전이 존재 spark.mllib vs. spark.ml spark.mllib가 RDD 기반이고 spark.ml은 데이터 프레임 기반 spark.mllib는 RDD 위에서 동작하는 이전 라이브러리로 더 이상 업데이트가 안됨 항상 spark.ml을 사용할 것! import pyspark.ml Spark MLlib의 ..

Data/Big Data 2021.07.29

[W12D3] Spark SQL

SQL이란? SQL은 빅데이터 세상에서도 중요! 구조화된 데이터를 다루는 한 SQL은 데이터 규모와 상관없이 쓰임 모든 대용량 데이터 웨어하우스는 SQL 기반 Redshift, Snowflake, BigQuery, Hive Spark도 예외는 아님 SparkSQL이 지원됨 데이터 분야에서 일하고자 하면 반드시 익혀야할 기본 기술 관계형 데이터베이스 대표적인 관계형 데이터베이스 MySQL, Postgres, Oracle, … Redshift, Snowflake, BigQuery, Hive, … 관계형 데이터베이스는 2단계로 구성됨 가장 밑단에는 테이블들이 존재(테이블은 엑셀의 시트에 해당) 테이블들은 데이터베이스라는 폴더 밑으로 구성 테이블의 구조(스키마라고 부르기도 함) 테이블은 레코드들로 구성 레코드는..

Data/Big Data 2021.07.29

[W12D2] Spark 소개 / 데이터 구조

Contents 빅데이터 정의와 예 하둡의 등장과 소개 Spark 소개 판다스와 비교 Spark 데이터프레임, 데이터셋, RDD Spark 개발 환경 Spark 맛보기 빅데이터의 정의와 예: 빅데이터란 무엇이며 어떤 예들이 있는가? 빅데이터의 정의1 “서버 한대로 처리할 수 없는 규모의 데이터” 2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data scientist인 존 라우저가 내린 정의. 분산 환경이 필요하느냐에 포커스! 판다스로 처리해야할 데이터가 너무 커서 처리가 불가능하다면 어떻게 할 것인가? 빅데이터의 정의2 “기존의 소프트웨어로는 처리할 수 없는 규모의 데이터” 대표적인 기존 소프트웨어 오라클이나 MySQL과 같은 관계형 데이터베이스 분산환경을 염두에 두지 않음 Scale-up 접근..

Data/Big Data 2021.07.29

[GAN 첫걸음] 진짜 쉽게 설명해주는 GAN

도서링크 GAN 첫걸음 - 교보문고 파이토치 신경망 입문부터 연예인 얼굴 생성까지 | 멋진 아이디어는 누구나 쉽게 배울 수 있어야 한다 세계에서 가장 안락한 GAN 입문서 2014년 등장한 GAN은 빠르게 발전하는 머신러닝 분야에서 www.kyobobook.co.kr 예제코드 깃허브 저자 블로그 [파이토치 첫걸음]에 이어 보는 책. 현재 수강중인 KDTx programmers AI dev course에서 final team project를 하게 되는데, 우리팀의 주제가 GAN 을 활용하는건데, 지금까지 아무 지식도, 경험도 없어서 미리 감을 좀 익히기 위해 구매했다. '첫걸음' 시리즈라 '파이토치 첫걸음'처럼 짧고, 쉽게 기본 개념에 대한 설명과 간단한 예제를 통해 개념의 구현을 맛보는 형식으로 씌여있다..

Deep Learning 2021.07.28

leetcode 108. Convert Sorted Array to Binary Search Tree 정렬된 배열의 이진 탐색 트리 변환 문제풀이

책에서 다룬 리트코드 문제들을 풀이한 포스팅이다. 문제는 모두 리트코드에 출제된 문제들이며, 직접 풀었지만, 책에서 주는 힌트와 풀이 과정들을 참고한 경우가 많다. 이곳은 정리한 책에 나온 문제에 대한 목록과 해설을 정리한 공식 깃허브 페이지 이며, 다음 포스팅은 내가 푼 문제 풀이 목록을 정리해 놓았다. 문제 https://leetcode.com/problems/convert-sorted-array-to-binary-search-tree/ Convert Sorted Array to Binary Search Tree - LeetCode Level up your coding skills and quickly land a job. This is the best place to expand your knowl..

[AI class final project] 선행논문 브라우징 & 일부 모델 데모 실행

'가상 옷입기'를 주제로 선행 논문들을 가볍게 브라우징 해보았다. 참고 https://paperswithcode.com/task/virtual-try-on Papers with Code - Virtual Try-on Virtual try-on of clothing or other items such as glasses and makeup. Most recent techniques use Generative Adversarial Networks. paperswithcode.com https://awesomeopensource.com/project/minar09/awesome-virtual-try-on 대략적으로 알게 된 사실과 이슈를 정리해보면 다음과 같다. 1. 가장 많은 논문들에서 훈련에 사용한 dat..

Projects/Fashion AI 2021.07.22

Codecademy 유료 결제 할인코드 21년 여름 할인코드

프로그래밍 독학 플랫폼으로 너무 잘 사용하고 있는 코드카데미 https://rollingsnowball.tistory.com/85 프로그래밍 독학 사이트 코드카데미 codecademy에서 왕초보가 시작하기 좋은 코스 추천 나는 처음 코드카데미에서 프로그래밍 자습을 시작했을 때, 무료 코스로 제공하는 것 중에서 쉽다고 추천해 준 것을 골라서 시작했다. 무료 코딩 독학 서비스 코드카데미 codecademy 공부 시작 무 rollingsnowball.tistory.com 무료로 활용할 수도 있지만, 구독 결제를 하고, 프로로 이용하면 제공해주는 코스도 훨씬 많아지고, 실습 연습을 할 수 있는 과제도 더 많이 제공해준다. 여름 방학 기간이라서 그런지 코드카데미에서 프로 결제 할인코드를 뿌리고 있다. 코드카데미 ..

Etcs 2021.07.20

[W12D1] Big Data 개요

Contents 1. 강사소개 2. 데이터 팀의 역할 3. 데이터 팀의 구성원 4. 데이터 팀의 조직구조 5. 모델 개발 시 고려할 점 6. 데이터 관련 교훈 2. 데이터팀의 역할: 데이터 팀은 어떤 역할을 수행하는가? 데이터 팀의 미션 신뢰할 수 있고 빠르게 이용가능한 데이터를 바탕으로 부가가치 생성 데이터 팀의 목표1 고품질의 데이터를 제공하여 정책 결정에 사용 결정과학(Decision Science)라고 부르기도 함. 그리고 이 일을 하는 사람을 데이터 애널리스트라고 부르기도 함. 데이터 참고 결정(data informed decisions)을 가능하게 함: 내가 가고싶은 방향이 있고, 이를 위해 데이터를 참고 vs. 데이터 기반 결정(data driven decisions): 내가 가고싶은 방향은..

Data 2021.07.19

[AI class W11 D5] SQL Analysis 5

Contents 1. 4일차 숙제 리뷰 2. 트랜잭션 소개와 실습 3. 기타 고급 문법 소개와 실습 4. 맺음말 1. 4일차 숙제 리뷰 1. 사용자별 처음과 마지막 채널 찾기 ROW_NUMBER를 활용해보자 (셀렉트된 레코드들에 특정 기준에 따른 일련번호를 부여하는 것) --1. CTE 방식으로 해결 WITH first AS ( -- 모든 사용자 별로 첫 번째 리턴 SELECT userid, ts, channel, ROW_NUMBER() OVER(PARTITION BY userid ORDER BY ts) seq FROM raw_data.user_session_channel usc JOIN raw_data.session_timestamp st ON usc.sessionid = st.sessionid ), ..

Data/SQL 2021.07.18