pandas에선 DataFrame.drop_duplicates
를 통해 중복된 데이터를 삭제할 수 있고,
duplicated()
는 중복된 데이터 여부를 boolean 값으로 반환해준다.
기본적인 형태는 밑에와 같다.
DataFrame[DataFrame.duplicated()]
[예제]
df.drop_duplicates(inplace=True)
또는
df.drop_duplicates(subset=['id'], keep='last')
바로 위 예제는 'id' 칼럼 중에 중복된 데이터가 있으면 마지막 것을 keep 해두고,
중복된 친구들을 삭제한다.