- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在编写一个应该删除重复条目的脚本。数据中有些人的名字输入了两次,因为他们有两个电话号码,并且由于电话号码字段不是数组,因此要输入多个,他们输入了多个条目。
我的脚本将条目更改为具有与列名称对应的键的字典,然后遍历每一行。有一个主 for 循环遍历每一行,然后有一个嵌套 for 循环遍历每个元素的所有元素,比较它们以检测重复项。当我点击重复项时,我的代码应该比较电话、电子邮件和网站,然后将它们附加到某个区域(如果它们是唯一的/不匹配)。
脚本运行,但它返回的 csv 填充了 csv 中的最后一个人,重复了 8 次,没有其他内容。
这是我的代码:
import csv
# This function takes a tab-delim csv and merges the ones with the same name but different phone / email / websites.
def merge_duplicates(sheet):
myjson = [] # myjson = list of dictionaries where each dictionary
with(open("ieca_first_col_fake_text.txt", "rU")) as f:
sheet = csv.DictReader(f,delimiter="\t")
for row in sheet:
myjson.append(row)
write_file = csv.DictWriter(open('duplicates_deleted.csv','w'), ['name','phone','email','website'], restval='', delimiter = '\t')
for row in myjson:
# convert phone, email, and web to lists so that extra can be appended
row['phone'] = row['phone'].split() if row.get('phone') else []
row['email'] = row['email'].split() if row.get('email') else []
row['website'] = row['website'].split() if row.get('website') else []
print row
i = 0
for i in range(len(myjson)):
# if the names match, check to see if phone, em, web match. If any match, append to first row.
try:
print 'trying'
if myjson[i]['name'] == myjson[i+1]['name']:
if myjson[i]['phone'] != myjson[i+1]['phone']:
print 'detected'
myjson[i]['phone'].append(myjson[i+1]['phone'])
if myjson[i]['email'] != myjson[i+1]['email']:
myjson[i]['email'].append(myjson[i+1]['email'])
if myjson[i]['website'] != myjson[i+1]['website']:
myjson[i]['website'].append(myjson[i+1]['website'])
except IndexError:
print("We're at the end now")
write_file.writerow(row)
print row
merge_duplicates('ieca_first_col_fake_text.txt')
这是 csv 输出(不是真人……编造的!)
"Amy Tramy Lamy Ph.D. [] [] []"
"Amy Tramy Lamy Ph.D. [] [] []"
"Amy Tramy Lamy Ph.D. [] [] []"
"Amy Tramy Lamy Ph.D. [] [] []"
"Amy Tramy Lamy Ph.D. [] [] []"
"Amy Tramy Lamy Ph.D. [] [] []"
"Amy Tramy Lamy Ph.D. [] [] []"
"Amy Tramy Lamy Ph.D. [] [] []"
非常感谢您的帮助!
<小时/>Ex 数据(如果有帮助):
name phone email website
Diane Grant Albrecht M.S.
"Lannister G. Cersei M.A.T., CEP" 111-222-3333 cersei@got.com www.got.com
Argle D. Bargle Ed.M.
Sam D. Man Ed.M. 000-000-1111 dman123@gmail.com www.daManWithThePlan.com
Sam D. Man Ed.M.
Sam D. Man Ed.M. 111-222-333 dman123@gmail.com www.daManWithThePlan.com
D G Bamf M.S.
Amy Tramy Lamy Ph.D.
最佳答案
您的具体问题是,您正在将 row
写入输出 csv,但在构建字典列表的 for 循环中使用它后,您从未重新分配它:
write_file.writerow(row)
这段代码有点困惑。我认为更简单的方法是按名称使用 OrderedDict
,假设您使用的是 2.7 或更高版本:
http://docs.python.org/2/library/collections.html#collections.OrderedDict
from collections import OrderedDict
people = OrderedDict()
with(open("ieca_first_col_fake_text.txt", "rU")) as f:
sheet = csv.DictReader(f,delimiter="\t")
for row in sheet:
name = row.get('name')
if name:
contact_information = people.setdefault(name, {})
contact_information.setdefault('phone', set()).add(row.get('phone'))
contact_information.setdefault('email', set()).add(row.get('email'))
contact_information.setdefault('website', set()).add(row.get('website'))
write_file = csv.DictWriter(open('duplicates_deleted.csv','w'), ['name','phone','email','website'], restval='', delimiter = '\t')
for name, contact_information in people:
row_dict = {'name': name}.update({list(contact_field) for contact_field in contact_information.values()})
write_file.writerow(row_dict)
它使用 Python set
类为每个唯一名称保留每个电话号码、电子邮件地址和网站的一份副本,然后将它们转换为列表,以便漂亮地写入 CSV。它不维护顺序 - 不幸的是,没有内置的 OrderedSet
,但如果您想保留它们出现的顺序,您可以使用另一个 OrderedDict
而不是集合。
关于python - 脚本仅打印最终条目而不是删除重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17457761/
考虑需要与 iOS 5 和 iOS 6 兼容的应用。 有没有办法标记纯粹为了 iOS 5 兼容性而存在的代码,以便当部署目标最终更改为 iOS 6 时它显示为编译错误(或警告)? 像这样: #IF_D
我想我知道答案但是...有什么方法可以防止全局变量被稍后执行的 修改吗? ?我知道全局变量首先是不好的,但在必要时,有没有办法让它成为“最终”或“不可变”?欢迎黑客/创造性的解决方案。谢谢 最佳答案
class Foo { final val pi = 3 } 是否每Foo对象有一个 pi成员?因此我应该把 pi在伴生对象中? 最佳答案 如果您担心内存占用,您可以考虑将此字段移动到伴随对象中。
随着可用的 Web 开发框架种类繁多,似乎总是有一种“尝试新事物”的永久动机。因此,我们中的一些人发现自己用一个框架换另一个框架,从来没有对最终结果完全满意。当然,总会有一个特定的 Web 框架可以完
在MDN中指出, If the finally block returns a value, this value becomes the return value of the entire try
我正在尝试用 JavaScript 制作一个基本的井字棋类型游戏。尽管 x 和 y 值在 if 语句的范围内,但除最后一个之外的所有空格都有效。 我不知道为什么最后的 else if 语句不起作用。
我想知道如何使用PowerMock模拟kotlin最终类(class),以便进行测试。我按照指南测试了Java最终类,但仍然出现此错误 Cannot subclass final class 有什么办
考虑以下设置: // debugger class public class Debug { // setting public final static boolean DEBUG
给定以下类(class): public class SomeClass { private final int a; public SomeClass(int a) {
This question already has answers here: What does “final” do if you place it before a variable?
我有一个类PasswordEncryptor,它使用org.jasypt.util.password.StrongPasswordEncryptor作为其字段之一,因为我试图使应用程序“可集群”所有类
我今天有一个关于 StreamReader 类的问题。具体使用文件名参数初始化此类例如: TextReader tr = new StreamReader(fileName); 显然,当此操作完成后,
我想弄清楚什么是使用带锁的 try/finally 的最佳方式。 当我在同一个地方有 lock() 和 unlock() 时,我只使用 try/finally block 作为 JavaDoc还建议:
在 Java 中序列化后是否可以将 final transient 字段设置为任何非默认值?我的用例是一个缓存变量——这就是它是 transient 的原因。我还有一个习惯,就是制作不会改变的 Map
在this问题说 final transient 字段在序列化后不能设置为任何非默认值。那么,为什么我为 aVar1 变量设置了 3,为 aVar3 变量设置了 s3? import java.io.
在Xbox上进行开发时,我使用的是F#规范中最终工作流程的修改版。 Xbox上的.net框架似乎不支持尾部调用。因此,我必须在编译时禁用尾部调用优化。 尽管起初看来这种限制会阻止在计算表达式中使用任何
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。 我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题,以便
我想让我的带有自定义对象的ArrayList成为最终对象,以便对象在设置后无法更改。 我试图这样声明它: private final ArrayList XML = new ArrayList();
我有一个场景,我需要类似于 .NET 的 try-catch-finally block 的内容。 在我的尝试中,我将创建一个#temp表,向其中插入数据并基于#temp处理其他数据集。 先是CATC
对此可能有一个简单的答案,但尝试充分使用 Butterknife,将一些 findViewById 转换为 @BindViews,并注意到我无法在需要声明为 Final 的 View 上使用 Bind
我是一名优秀的程序员,十分优秀!