중복 데이터 - 전처리

괴도소녀·2021년 7월 8일

데이터

목록 보기

5/14

pandas에선 DataFrame.drop_duplicates를 통해 중복된 데이터를 삭제할 수 있고,
duplicated()는 중복된 데이터 여부를 boolean 값으로 반환해준다.
기본적인 형태는 밑에와 같다.

DataFrame[DataFrame.duplicated()]

[예제]

df.drop_duplicates(inplace=True)

또는

df.drop_duplicates(subset=['id'], keep='last')

바로 위 예제는 'id' 칼럼 중에 중복된 데이터가 있으면 마지막 것을 keep 해두고,
중복된 친구들을 삭제한다.