Data/Pandas 4

Q. 데이터프레임에 중복값이 있는지 확인하려면? A. pandas.DataFrame.duplicated

다큐멘테이션 : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html Q. 표와 데이터가 있다. 그런데 중복이면 안되는 열 있거나, (ex. 생일이 똑같은 유저는 얼마든지 있어도 상관없는데, 전화번호가 똑같으면 안된다.) 입력할 때 오류가 있어서 모든 내용이 완전히 중복된 행이 있는 것 같은데 확인하기 어려울 때, 아니면, 모든 열의 값에 겹치는 것이 하나도 없는 행들만 남기고 싶을 땐 어떻게 해야할까? A. 표를 판다스 데이터프레임으로 만들어 해결한다. pandas.DataFrame.duplicated() 는 중복인 row가 있으면, True를 반환해주는데, 이를 몇가지 상황에서 활용할 수 있다. 1. 특정 컬럼이 중..

Data/Pandas 2022.10.06

pandas에서는 for문 말고 메소드를 쓰자

데이터 프레임 전체에서 특정한 조건에 해당하는 행들을 제거한 새 데이터 프레임을 만드는 작업을 했다. 1. for idx, row in df.itterrows(): 를 활용하여 데이터 프레임 각 행마다 작업을 수행했을 때 작업 속도 : 36분 2. 특정한 조건을 condition으로 만들어 df[condition]으로 필터링한 경우의 작업 속도 : 460ms 약 4760배 속도가 향상되었다.

Data/Pandas 2021.12.09

[AI class day12] 파이썬 판다스 python pandas TIL

감상 : 어제에 이어 파이썬 라이브러리 판다스를 공부하고, 적용하는 연습을 해본 시간 마찬가지로 지난 데이터 분석 과정 수강 때 공부했던 내용이라 복습을 하는 정도였다. 2. 파이썬으로 데이터 주무르기, pandas pandas를 활용해서 데이터프레임을 다뤄봅시다. 수업에 사용된 covid 데이터 I. pandas 시작하기 import pandas as pd II. pandas로 1차원 데이터 다루기 - Series 1-D labeled array 인덱스를 지정해줄 수 있음 s = pd.Series([1,4,9,16,25]) s 0 1 1 4 2 9 3 16 4 25 dtype: int64 #인덱스 지정이 가능하기 때문에 딕셔너리로 생성이 가능함 t = pd.Series({'one':1, 'two': 2..

Data/Pandas 2021.05.05

numpy, pandas 연습 문제 링크

프로그래머스 AI 수업 멘토님이 추천해주신, numpy, pandas 연습 문제들을 모아놓은 링크 넘파이와 판다스 각각 101 문제씩 있고, 1번은 그냥 프린트 찍어라 수준의 아주 아주 쉬운 문제이기 때문에 쭉 아래로 훑어 가면서 보다가 '가물가물하다' 싶은 부분부터 보면서 연습문제를 풀어보면 좋을 것 같다. www.machinelearningplus.com/python/101-numpy-exercises-python/ 101 Numpy Exercises for Data Analysis The goal of the numpy exercises is to serve as a reference as well as to get you to apply numpy beyond the basics. The ques..

Data/Pandas 2021.05.03