gpt4 book ai didi

python - 从列表中消除半重复项的高性能方法

转载 作者:行者123 更新时间:2023-11-28 16:47:01 25 4
gpt4 key购买 nike

我有一系列的谜题: 字母或单词之间没有空格的莫尔斯电码字符串。我的计划是进行字典攻击以找到最佳解决方案候选者。我的武器是 Python。

我有一个包含 17000 个英语单词的列表。我还有一个小得多的与拼图主题相关的单词列表,如果这些单词出现,它们应该得分更高。

因此,在我的脚本最开始生成单词列表时,我使用了 (word, scoremultiplier) 形式的元组列表。这是一小部分:

[('zoned', 1.0), 
('zonely', 1.0),
('zoner', 1.0),
('zones', 1.0),
('zoning', 1.0),
('zoo', 1.0),
('zoom', 1.0),
('zoomed', 1.0),
('zooming', 1.0),
('zooms', 1.0),
('zoos', 1.0),
('ten', 1.0),
('tens', 1.0),
('gnash', 1.0),
('shag', 1.0),
('75th', 2.0),
('seventy', 2.0),
('fifth', 2.0)]

在我解析所有内容的文件中,我只想将高值(value)的词放在最后,而不是手动删除文件主要部分中的任何重复项。所以我需要写一些东西来摆脱第一个值等于后面的元组的早期元组。

我可以用蛮力做到这一点:

for firstkey, (firstword, firstfactor) in enumerate(wordlist):
for laterkey, (laterword, laterfactor) in enumerate(wordlist[firstkey+1:]):
if firstword == laterword:
del wordlist[firstkey]
break

但仅脚本的那部分就需要将近 45 秒,而我的 17000 个单词甚至不是完整的字典。 (除了完成所需的时间之外,该代码也未经测试,因此它甚至可能无法工作。)它似乎也非常不符合 Python,尽管我刚刚开始学习 Python(并且根本没有进行一些我的第一次编程)有了这个项目。

有更好的方法吗?我不能使用 set(),因为重复的单词是不相等元组的一部分。我是否需要以某种方式重组我的数据?还是我应该准备好在每次运行时等待整整一分钟?

最佳答案

我可能误解了这个问题,但看起来您可以从元组列表生成一个 dict。后面的值会自动覆盖前面的值:

lst = [
('foo', 1),
('bar', 2),
('foo', 10)
]

print dict(lst) # {'foo': 10, 'bar': 2}

关于python - 从列表中消除半重复项的高性能方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12886611/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com