Pandasで重複を確認削除する方法を紹介します。
使用するデータフレーム
data変数に以下のデータフレームが入っていると仮定します。
Name Age Gender Address 0 田中 太郎 17 male 東京 1 鈴木 一郎 43 male 大阪 2 渋井丸 巧 20 male 渋谷 3 社畜 丸 22 male 会社 4 宗竜 レイ 28 female 日本 5 田中 太郎 17 male 東京
書き方
data.duplicated() #重複を確認 data.drop_duplicates() #重複を削除
実際に使ってみる
重複を確認
data.duplicated()
0 False 1 False 2 False 3 False 4 False 5 True
重複を削除
data.drop_duplicates()
Name Age Gender Address 0 田中 太郎 17 male 東京 1 鈴木 一郎 43 male 大阪 2 渋井丸 巧 20 male 渋谷 3 社畜 丸 22 male 会社 4 宗竜 レイ 28 female 日本
指定列の重複を確認する
Name列の重複を確認
data["Name"].duplicated() data.duplicated("Name")
どちらでも大丈夫です。