python - 保留第一个并删除接下来的重复行-6ren

python - 保留第一个并删除接下来的重复行

转载作者：太空宇宙更新时间：2023-11-03 16:25:20

我想保留重复项集中的第一行。我还尝试附加当前的输入文件。我的疑问是，如果同时删除重复项并附加同一文件，是否可能？如果是这样，那么下面引用 Pandas 文档的代码不起作用。

输入:

,id_merged,time_1,time_2,gps_1or3,gps_2or4
0,00022d9064bc,1073260801,1073260803,819251,440006 #duplicate_keep
1,00022d9064bc,1073260801,1073260803,819251,440006 #duplicate_remove
2,00022d9064bc,1073260801,1073260803,819251,440006 #duplicate_remove
3,00022d9064bc,1073260801,1073260803,819251,440006 #duplicate_remove
4,00022d9064bc,1073260803,1073260810,819213,439954
5,00904b4557d3,1073260803,1073261920,817526,439458
6,00022de73863,1073260804,1073265410,817558,439525
7,00904b14b494,1073260804,1073262625,817558,439525 
8,00904b14b494,1073260804,1073265163,817558,439525 
9,00904b14b494,1073260804,1073263786,817558,439525
10,00022d1406df,1073260807,1073260809,820428,438735
0,00022d9064bc,1073260801,1073260803,819251,440006
1,00022dba8f51,1073260801,1073260803,819251,440006
2,00022de1c6c1,1073260801,1073260803,819251,440006
3,003065f30f37,1073260801,1073260803,819251,440006
4,00904b48a3b6,1073260801,1073260803,819251,440006
5,00904b83a0ea,1073260803,1073260810,819213,439954
6,00904b85d3cf,1073260803,1073261920,817526,439458
7,00904b14b494,1073260804,1073265410,817558,439525
8,00904b99499c,1073260804,1073262625,817558,439525
9,00904bb96e83,1073260804,1073265163,817558,439525
10,00904bf91b75,1073260804,1073263786,817558,439525

预期输出:索引=无，标题=无

00022d9064bc,1073260801,1073260803,819251,440006
00022d9064bc,1073260803,1073260810,819213,439954
00904b4557d3,1073260803,1073261920,817526,439458
00022de73863,1073260804,1073265410,817558,439525
00904b14b494,1073260804,1073262625,817558,439525
00022d1406df,1073260807,1073260809,820428,438735
00022d9064bc,1073260801,1073260803,819251,440006
00022dba8f51,1073260801,1073260803,819251,440006
00022de1c6c1,1073260801,1073260803,819251,440006
003065f30f37,1073260801,1073260803,819251,440006
00904b48a3b6,1073260801,1073260803,819251,440006
00904b83a0ea,1073260803,1073260810,819213,439954
00904b85d3cf,1073260803,1073261920,817526,439458
00904b14b494,1073260804,1073265410,817558,439525
00904b99499c,1073260804,1073262625,817558,439525
00904bb96e83,1073260804,1073265163,817558,439525
00904bf91b75,1073260804,1073263786,817558,439525

匹配该行的每个元素，如果整行都是重复的，则保留第一个元素并删除其余的重复项。

代码:

from StringIO import StringIO
import pandas as pd

df = pd.read_csv(StringIO('input.csv'), index_col=[0], header=[' ','id_merged','time_1','time_2','gps_1or3','gps_2or4'])


df.drop_duplicates(keep='first')

df.to_csv('dart_small_final.csv',mode = 'a',header=False, index=False)

编辑一个:

import csv
import pandas as pd

df = pd.read_csv('dart_small_final.csv', index_col=[0], header=[' ','id_merged','time_1','time_2','gps_1or3','gps_2or4'])


df.drop_duplicates(keep=first, inplace=True)
df.reset_index(drop=True, inplace=True)

df.to_csv('dart_final.csv', header=None, index=None)

错误:

Traceback (most recent call last):
  File "remove_dup.py", line 4, in <module>
    df = pd.read_csv('dart_small_final.csv', index_col=[0], header=[' ','id_merged','time_1','time_2','gps_1or3','gps_2or4'])
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 562, in parser_f
    return _read(filepath_or_buffer, kwds)
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 315, in _read
    parser = TextFileReader(filepath_or_buffer, **kwds)
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 645, in __init__
    self._make_engine(self.engine)
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 799, in _make_engine
    self._engine = CParserWrapper(self.f, **self.options)
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 1213, in __init__
    self._reader = _parser.TextReader(src, **kwds)
  File "pandas/parser.pyx", line 504, in pandas.parser.TextReader.__cinit__ (pandas/parser.c:4950)
TypeError: cannot concatenate 'str' and 'int' objects

最佳答案

您需要添加参数inplace=True:

import pandas as pd
import io

temp=u""",id_merged,time_1,time_2,gps_1or3,gps_2or4
0,00022d9064bc,1073260801,1073260803,819251,440006
1,00022d9064bc,1073260801,1073260803,819251,440006
2,00022d9064bc,1073260801,1073260803,819251,440006
3,00022d9064bc,1073260801,1073260803,819251,440006
4,00022d9064bc,1073260803,1073260810,819213,439954
5,00904b4557d3,1073260803,1073261920,817526,439458
6,00022de73863,1073260804,1073265410,817558,439525
7,00904b14b494,1073260804,1073262625,817558,439525
8,00904b14b494,1073260804,1073265163,817558,439525
9,00904b14b494,1073260804,1073263786,817558,439525
10,00022d1406df,1073260807,1073260809,820428,438735
0,00022d9064bc,1073260801,1073260803,819251,440006
1,00022dba8f51,1073260801,1073260803,819251,440006
2,00022de1c6c1,1073260801,1073260803,819251,440006
3,003065f30f37,1073260801,1073260803,819251,440006
4,00904b48a3b6,1073260801,1073260803,819251,440006
5,00904b83a0ea,1073260803,1073260810,819213,439954
6,00904b85d3cf,1073260803,1073261920,817526,439458
7,00904b14b494,1073260804,1073265410,817558,439525
8,00904b99499c,1073260804,1073262625,817558,439525
9,00904bb96e83,1073260804,1073265163,817558,439525
10,00904bf91b75,1073260804,1073263786,817558,439525"""

#after testing replace io.StringIO(temp) to filename
df = pd.read_csv(io.StringIO(temp), index_col=0)
print (df)
       id_merged      time_1      time_2  gps_1or3  gps_2or4
0   00022d9064bc  1073260801  1073260803    819251    440006
1   00022d9064bc  1073260801  1073260803    819251    440006
2   00022d9064bc  1073260801  1073260803    819251    440006
3   00022d9064bc  1073260801  1073260803    819251    440006
4   00022d9064bc  1073260803  1073260810    819213    439954
5   00904b4557d3  1073260803  1073261920    817526    439458
6   00022de73863  1073260804  1073265410    817558    439525
7   00904b14b494  1073260804  1073262625    817558    439525
8   00904b14b494  1073260804  1073265163    817558    439525
9   00904b14b494  1073260804  1073263786    817558    439525
10  00022d1406df  1073260807  1073260809    820428    438735
0   00022d9064bc  1073260801  1073260803    819251    440006
1   00022dba8f51  1073260801  1073260803    819251    440006
2   00022de1c6c1  1073260801  1073260803    819251    440006
3   003065f30f37  1073260801  1073260803    819251    440006
4   00904b48a3b6  1073260801  1073260803    819251    440006
5   00904b83a0ea  1073260803  1073260810    819213    439954
6   00904b85d3cf  1073260803  1073261920    817526    439458
7   00904b14b494  1073260804  1073265410    817558    439525
8   00904b99499c  1073260804  1073262625    817558    439525
9   00904bb96e83  1073260804  1073265163    817558    439525
10  00904bf91b75  1073260804  1073263786    817558    439525

df.drop_duplicates(keep='first', inplace=True)
#or assign output to df
#df = df.drop_duplicates(keep='first')
df.reset_index(drop=True, inplace=True)
print (df)
       id_merged      time_1      time_2  gps_1or3  gps_2or4
0   00022d9064bc  1073260801  1073260803    819251    440006
1   00022d9064bc  1073260803  1073260810    819213    439954
2   00904b4557d3  1073260803  1073261920    817526    439458
3   00022de73863  1073260804  1073265410    817558    439525
4   00904b14b494  1073260804  1073262625    817558    439525
5   00904b14b494  1073260804  1073265163    817558    439525
6   00904b14b494  1073260804  1073263786    817558    439525
7   00022d1406df  1073260807  1073260809    820428    438735
8   00022dba8f51  1073260801  1073260803    819251    440006
9   00022de1c6c1  1073260801  1073260803    819251    440006
10  003065f30f37  1073260801  1073260803    819251    440006
11  00904b48a3b6  1073260801  1073260803    819251    440006
12  00904b83a0ea  1073260803  1073260810    819213    439954
13  00904b85d3cf  1073260803  1073261920    817526    439458
14  00904b14b494  1073260804  1073265410    817558    439525
15  00904b99499c  1073260804  1073262625    817558    439525
16  00904bb96e83  1073260804  1073265163    817558    439525
17  00904bf91b75  1073260804  1073263786    817558    439525

关于python - 保留第一个并删除接下来的重复行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38040929/

文章推荐： php - 带试用期的 Paypal 定期付款

文章推荐： ruby-on-rails - pry 开 rails 和其他 gem 代码

文章推荐： c# - 使用 C# 在 XML 中用日期替换字符串

文章推荐： paypal - 订阅服务的最佳 Paypal 移动集成选项

sh - 保留 $?
仅使用POSIX shell 的特性，是否有一个“简单命令”，它什么也不做，也不改变$? 的值。人们通常描述:作为 shell 的无操作命令，但这总是设置 $?为零，所以这不是我想要的。这是生成 s
opengl - 保留 GLBlendFunc
我需要保留当前的 GlBlendFunc 以便在我做一些工作后可以恢复它。似乎这不是可以用 GLPushAttrib 保存的属性之一，还有其他类似的方法可以用来保存状态吗？最佳答案 glGet与
java - 查询解决方案，保留 "< >"
我目前正致力于创建 Fuseki 三重存储浏览器的项目。我需要可视化 TripleStore 中的所有数据并使应用程序可浏览。唯一的问题是 QuerySolution 遗漏了三元组中的“”。如果我使
ios - 保留 Appdelegate
我知道没有必要保留委托(delegate)，以避免保留循环。我在一次采访中碰巧遇到了一个问题，“如果保留了 appDelegate 会怎样？”。我对此没有答案，并根据我的知识在这里寻求答案。谢谢最佳
c - 动态数据结构、保留
我正在用 C 编写第一个更严肃的程序，但我陷入了困境。我需要将此列表排序为不同的单独文件，因此它看起来像这样: BE30B Berlin 2014-04-02 Gale 02 BE30B Berlin
javascript - 保留，但停用样式表和脚本
我有 4 个页面，我使用 ajax 和 historyPopState 在它们之间进行更改。但是有一个问题，因为页面非常不同，它们使用不同的样式表和脚本。我可以一遍又一遍地下载它们，但我想问一下是否有
php - 保留/刷新表单在数据库中创建了额外的行
我有一个表单，其中包含从一个表创建的多行(与其他表没有关系)。当我保存表单时，我所做的每项更改都会保存，但数据库中确实有一个额外的空行。请参阅下文(希望)了解所有必要的信息。 PropertyAddi
android - 保留 fragment
我正在编写一个可以在 Canvas 上绘制气泡的应用程序。我有 MainActivity，它的布局是一个简单的 LinearLayout，我将其用作 fragment 的容器。当我在 Canvas 上
ios - 保留/释放错误
我想弄清楚为什么我通过这段代码得到 EXC_BAD_ACESS。我没有线索。谁能帮帮我。 - (void)loadJsonFile:(NSString*)fileName { NSError
python - 保留 if 语句中的值
我正在编写一个代码，它将遍历单词中的每个单词，在字典中查找它们，然后将字典值附加到计数器。但是，如果我打印计数器，我只会从我的 if 语句中获取最后一个数字(如果有的话)。如果我将 print cou
javascript - 保留、隐藏和重置基于按钮的选择选项
抱歉，标题有点困惑。我想隐藏这些选择选项，只在用户选择按钮时显示。一旦用户选择了一个按钮，我希望选择字段将继续显示......但是如果用户选择了不同的按钮，我想从以前的选择中重置所选的选项并炫耀。
python - 保留 "\n"
>>> t = "first%s\n" >>> t = t %("second") >>> print t firstsecond 无论如何我可以保留最后的“\n”并得到“firstsecond\n”
javascript - 保留 if 语句中对变量的更改
我试图弄清楚如何更改 if 语句中的变量并使其保持全局不变。用户输入:!change Hi var A = "Hello" if (msg.content.includes ('!change'))
Android - 保留 fragment ？
您好，我有一个关于在重新创建 Activity 时保留 fragment 的问题。我听说一种方法是在 onCreate 方法中使用 setRetainFragment(true) 。问题是——这与跟踪
iphone - 保留 rootViewController？
我想知道是否有人可以帮助我解决下面代码中的内存管理问题。我对 rootController 特别感兴趣，它是在我执行 initWithRootViewController 时被保留还是在窗口 addS
iphone - 保留/复制自动释放的对象
我想确保我在这里正确理解了内存管理。是否有任何特殊原因在这里使用其中一种 assignCurrentDate 方法而不是另一种方法？此外，所有这些都不会导致内存泄漏，对吗？在 .h 中我们有: NS
Angular2 保留/添加尾部斜线
我对 Angular2 删除尾部斜杠有疑问。我已经设置了我的 dotnet 核心应用程序来添加它们，但是一旦加载了 js，它们就会被删除。在 Angular2 中甚至可能吗？ (我的客户需要它，所以
python - 保留 key
local_settings.py 反模式的原因之一是把 SECRET_KEY, AWS设置文件中的键等值有问题: secret 通常应该是这样的: secret !将它们保存在版本控制中意味着拥有存
javascript - 保留 Webpack 中模块的顺序
import('./A'); import('./B'); import('./C'); export class Person {}; A、B 和 C 是纯 JS (es5) 库，它们使用全局 wi
保留 R 数据框中的行，这些行在列中包含特定模式
df 是一个测试数据框，其中我只想保留 Hits 列中包含 | 字符的行和行其中包含 hits(即 Hit1、Hit2 等)以及 Hits 列中的空白单元格。 df 从开始 (^) 到结束 ($)

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 保留第一个并删除接下来的重复行