- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 csv 文件,每天都会向其中添加重复的数据和唯一的数据。这涉及太多重复项。我必须根据特定列删除重复项。例如:
csv文件1:
title1 title2 title3 title4 title5
abcdef 12 13 14 15
jklmn 12 13 56 76
abcdef 12 13 98 89
bvnjkl 56 76 86 96
现在,基于 title1、title2 和 title3,我必须删除重复项并将唯一条目添加到新的 csv 文件中。正如您所看到的 abcdef 行不是唯一的,并且基于 title1、title2 和 title3 重复,因此应该将其删除,输出应如下所示:
预期输出 CSV 文件:
title1 title2 title3 title4 title5
jklmn 12 13 56 76
bvnjkl 56 76 86 96
我尝试过的代码如下:CSVINPUT 文件 导入csv
f = open("1.csv", 'a+')
writer = csv.writer(f)
writer.writerow(("t1", "t2", "t3"))
a =[["a", 'b', 'c'], ["g", "h", "i"],['a','b','c']] #This list is changed daily so new and duplicates data get added daily
for i in range(2):
writer.writerow((a[i]))
f.close()
重复删除脚本:
import csv
with open('1.csv','r') as in_file, open('2.csv','w') as out_file:
seen = set() # set for fast O(1) amortized lookup
for line in in_file:
if line not in seen: continue # skip duplicate
out_file.write(line)
我的输出:2.csv:
t1 t2 t3
a b c
g h i
现在,我不想要基于 t1 和 t2 的 2.csv 中的 b c,只想要基于 t1 和 t2 的唯一 g h i
最佳答案
代码中的一些问题 -
在创建 csv 文件的 python 文件中,您仅迭代直到 - range(2)
, range
不包含在内,因此它只将前两列写入csv,而不是第三列,您可以直接迭代csv,而不是迭代每个元素。另外,您不需要 writer.writerow()
中那么多括号。 ,示例-
for i in a:
writer.writerow(i)
在重复删除脚本中,您实际上从未将任何内容添加到 seen()
中。 ,所以你永远不会最终删除任何东西。当您想要根据列表的元素子集删除重复项时,只需将这些元素(按特定顺序)添加到 seen
中即可。设置(作为元组),而不是列表,因为 set()
只接受可散列元素。然后,在检查集合中的包含情况时,仅检查您添加的子集。示例-
import csv
with open('1.csv','r') as in_file, open('2.csv','w') as out_file:
seen = set()
seentwice = set()
reader = csv.reader(in_file)
writer = csv.writer(out_file)
rows = []
for row in reader:
if (row[0],row[1]) in seen:
seentwice.add((row[0],row[1]))
seen.add((row[0],row[1]))
rows.append(row)
for row in rows:
if (row[0],row[1]) not in seentwice:
writer.writerow(row)
这将完全删除基于第一列和第二列重复的任何行。它甚至不会为这些行存储一行,我猜这就是您想要的。
seen
- set - 这用于存储我们已经看到的行。
seentwice
- set - 如果我们遇到先前已添加到 seen
的行,则此集合仅填充一行。 ,这意味着该行是重复的。
最后,我们只想写 rows
不在里面 seentwice
,自任何 row
在seentwice
意味着它是重复的,该行在 row[0]
处至少有两个具有相似值的不同行。和row[1]
.
关于python - 读取 csv 文件并仅在另一个 csv 文件中添加新条目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31827896/
情况:我想从数据条目列表导航回我的 PageViewController。 before 和 previous 函数起作用 func pageViewController(pageViewContro
尊敬的 StackOverflow 用户 我有一个 gradle 项目,我想将其工件转换为 osgi 包。在这个包中,我有: 我不想导出的包(可能不会出现在 list 的 Export-Package
我为我的 PendingIntent 设置了一个警报。现在我想在我的 Activity 中显示是否设置了此警报。 Intent service = new Intent(context, MyServ
我有 2 个表、作者和书籍 authors 包含唯一的 IDauthorId 书籍也包含此作为外键 我需要知道书籍数量最多的作者。如果 2 个或更多作者并列最多书籍,我需要显示这两位作者 我已经能够通
我有一个名为 prospective_shop 的表,其中一个列名称是“用户名”。用户名未设置为主键,但我想删除所有具有重复用户名的行。我怎样才能以最快的方式做到这一点? 我尝试执行以下操作: ALT
我现在可以添加条目了。在我的应用程序中,用户可以在他的日历上输入约会/事件。但在他这样做之前,它应该向他显示他已经添加的事件。它应该从日历中获取事件并将其显示给他。这该怎么做?我被困在这部分。提前致谢
#include #include #include #include #include #include char *msg; ssize_t write_proc(struct file
我想将大于 1024 个字符的字符串传递到我的模块(文件系统)。由于内核参数限制为 1024 个字符,someone recommended改为使用 sysfs。 我试图包括 this example
我正在尝试使用 SQLAlchemy 构建以下查询(用作包含查询的子查询,该查询定义名为 tbl_outer 的别名): SELECT max(tbl.ts) AS max_1 FROM tbl WH
假设我有两张 map : Map map1 = Map.of( "a", "1", "b", "2", "c", "3", "x
通过简化示例,假设您有以下数据集: A B C Name Group Amount Dave A 2 Mike B 3 Adam C 4
我正在尝试在我的服务器上创建一个三级域虚拟主机。我希望配置设置正确,但我得到一个 ERR_NAME_NOT_RESOLVED错误。 我已经读到我必须在某处“添加 DNS 条目”以便解析名称,但我该怎么
我需要一个可用于在逗号分隔列表中查找第 N 个条目的正则表达式。 例如,假设此列表如下所示: abc,def,4322,mail@mailinator.com,3321,alpha-beta,43 .
GWT 应用程序(在 Eclipse 中开发)的源代码管理忽略文件中的典型条目是什么? 最佳答案 我会推荐: 你leave the eclipse files (.project, .classpat
我必须创建显示表 (Tbl) 中所有字段的输出,并创建一个额外的列来按月计算每个客户的累计总和(例如,如果客户在 4 月份有两次销售,新列将具有这些销售额和两行中任何先前销售额的总和)。我能做的就这么
文档 ( http://kubernetes.io/docs/user-guide/configmap/ ) 上用于使用值的示例基于 ConfigMap,其中每个数据条目都是一对/值。例子: apiV
我有一个奇怪的错字,我一遍又一遍地犯,而不是实际工作我的打字技巧,我想编辑我的 AutoHotkey 脚本来弥补这一点。 有时,当我输入大写字母时,我会点击:按钮并输入“I:”,我希望 AHK 仅用字
使用 lgdt 初始化 GDT 并将其加载到 GDTR 后,稍后如何更新 GDT? 如果我使用 sgdt 命令获取基地址,然后更新或添加条目,然后使用 lgdt 再次重新加载,我是否正确?还有其他方法
我有两个应用程序共享同一个数据库,即 API 和 MVC5 应用程序。两者都在本地主机上运行良好,但在部署到我的 Azure 帐户时出现此错误 Configuration Error Descrip
我正在尝试修剪我拥有的一些文件。我将为您保存到目前为止我编写的野兽,并通过提供虚构代码使其保持简单。 让我们来看看这个数组: [System.String[]]$Collection = 'Invit
我是一名优秀的程序员,十分优秀!