gpt4 book ai didi

Pandas 重复值 : Result visual inspection not duplicates

转载 作者:行者123 更新时间:2023-12-04 07:54:22 26 4
gpt4 key购买 nike

您好,提前感谢所有答案,我非常感谢社区的帮助
这是我的数据框 - 来自包含从汽车分类广告中抓取的数据的 csv

 Unnamed: 0                      NameYear  \
0 0 BMW 7 серия, 2007
1 1 BMW X3, 2021
2 2 BMW 2 серия Gran Coupe, 2021
3 3 BMW X5, 2021
4 4 BMW X1, 2021

Price \
0 520 000 ₽
1 от 4 810 000 ₽\n4 960 000 ₽ без скидки
2 2 560 000 ₽
3 от 9 259 800 ₽\n9 974 800 ₽ без скидки
4 от 3 130 000 ₽\n3 220 000 ₽ без скидки

CarParams \
0 187 000 км, AT (445 л.с.), седан, задний, бензин
1 2.0 AT (190 л.с.), внедорожник, полный, дизель
2 1.5 AMT (140 л.с.), седан, передний, бензин
3 3.0 AT (400 л.с.), внедорожник, полный, дизель
4 2.0 AT (192 л.с.), внедорожник, полный, бензин

url
0 https://www.avito.ru/moskva/avtomobili/bmw_7_s...
1 https://www.avito.ru/moskva/avtomobili/bmw_x3_...
2 https://www.avito.ru/moskva/avtomobili/bmw_2_s...
3 https://www.avito.ru/moskva/avtomobili/bmw_x5_...
4 https://www.avito.ru/moskva/avtomobili/bmw_x1_...
  • 任务 - 我想知道是否有重复的行,或者 SAME 汽车广告是否出现两次。最可靠的可能是 url,因为它应该是唯一的:CarParameters 或 NameYear 可以重复,所以我将在 url 列
  • 上检查 nunique 和重复。

    屏幕截图以直观地检查重复的结果:
    enter image description here
  • 问题 :目视检查(抱歉使用不专业的行话)显示这些 url 不相同,但我想获得可能完全相同的 url 来检查重复数据。我也尝试设置 keep = False
  • 最佳答案

    尝试:

    df.duplicated(subset=["url"], keep=False)

    关于 Pandas 重复值 : Result visual inspection not duplicates,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66777319/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com