Data/EDA 3

kaggle 시작은 필사부터 - notebook grandmaster subinium님 자료

데이터 분석 경진대회 플랫폼 kaggle. 아직은 t academy 특강, 그리고 fast campus 빅데이터 분석가 양성 과정에서 파이널 과제로 kaggle 데이터를 활용하는 바람에 조금 접해본 게 다이다. 내 실력에 아직 경진 대회에 참여해서 의미 있는 결과를 나타낼 수는 없지만, 캐글 사이트에 올라있는 수많은 데이터셋들과 많은 학습자들의 노트북들을 material로 공부하는 것만으로 큰 도움이 될 것 같다. 그런데 캐글을 소개하는 사람들마다 공통으로 추천하는 것이 있었으니 바로 노트북 필사. 다른 사람들이 이미 만들어 놓은 데이터 분석 노트북을 처음에는 그저 따라 치는 것부터 시작하라는 것이다. 좋은 노트북도 수없이 많이 있지만, t-academy 특강 강사를 하셨던 subinium님이 학습하기 ..

Data/EDA 2021.05.21

[AI Class Day 16, 17] EDA TIL

감상 : 지난주 강의에 이어서 그나마 빅데이터 분석가 과정에서 배웠던 것을 다시 복습하는 시간이어서 좀 수월한 편이었다. 내가 원하는 분석을 하기 위해 지난주에 배운 numpy, pandas, matplotlib을 어떻게 활용할 수 있을지 생각해 내고, 바로 적용하는 것이 쉽지는 않아서, 예전 수업 자료 노트를 꺼내 정리하면서, 복습했다. + 추가 감상: 이후에 주말 특강 과제로 이 titanic 데이터로 kaggle competition에 submit 하는 미션을 했다. 타이타닉 데이터로 EDA 실습은 해본 적 있지만, 직접 생존율 예측 모델을 만들어서 결과를 submit한 적은 없었기 때문에 단시간 내에 결과를 내서 제출해보라고 하니까 허둥대게 되었다. 기존에 다른 사람들이 공개한 노트북 중에서 내가..

Data/EDA 2021.05.13

[AI class day13] 파이썬 매트플롯, 씨본 python matplotlib, seaborn TIL

감상 : 지난 시간에 배운 numpy와 pandas를 바탕으로 만든 표를 보다 직관적으로 인식하기 좋은 그래프로 보여주는 부분. 이 역시 에서 배웠던 내용에 복습이기는 하다. 그런데 numpy나 pandas와는 달리 차근차근 배웠던 기억이 없고, 이후에 EDA 과제를 하거나 ML report를 작성할 때도, 항상 어떻게 써야 내 의도에 맞는 그래프를 출력할 수 있는지 헷갈렸던 기억이다. 이번 수업에서 딱 2줄 부터 시작해서 한 줄씩 더해가며 그래프를 업그레이드하는 방식으로 진행한 수업이 내용을 이해하고, 외우는데 아주 효과적이었던 것 같다. matplotlib.pyplot function overview (공식) seaborn API reference (공식) matplotlib cheat sheets ..

Data/EDA 2021.05.07