[python] 파이썬: pandas 중복 값 제거
pandas 중복 값 제거 pandas.DataFrame.drop_duplicates drop_duplicates는 중복된 값을 제거한 뒤 DataFrame을 반환합니다. subset: 중복제거할 column을 결정합니다. DataFrame의 column 혹은 [column, column]으로 명시하면 명시된 column을 기준으로 중복제거가 일어납니다. subset을 명시하지 않으면 전체 데이터 셋을 기준으로 중복제거를 합니다. keep: 중복된 값을 어떻게 처리할지 정합니다. first: 첫 번째 중복 값을 남기고, 이외 중복 값을 모두 제거합니다. last: 마지막 번째 중복 값을 남기고, 이외 중복 값을 모두 제거합니다. False: 중복된 값들을 모두 제거합니다. inplace: boolean 값으로써 True면 원본 DataFrame 자체에서 중복제거를 합니다. 반환 값은 None False면 원본 DataFrame을 건들지 않고 중복제거한 새로운 DataFrame을 만들어 값을 반환합니다. import pandas as pd data = { "Name" : [ "A" , "B" , "C" , "D" , "E" , "F" ] , "Age" : [ 25 , 35 , 35 , 35 , 15 , 45 ] , "Country" : [ "KOR" , "KOR" , "KOR" , "USA" , "USA" , "GBR" ] } df = pd.DataFrame(data , columns =data.keys()) print (df) # 출력 # Name Age