gpt4 book ai didi

python - 索引以更快地搜索文件中的列表?

转载 作者:太空宇宙 更新时间:2023-11-04 06:30:54 25 4
gpt4 key购买 nike

我有一个包含大约 10 万个列表的文件,还有一个包含平均 50 个列表的文件。

我想将第二个文件中列表的第二项与第一个文件中的第二个元素进行比较,并对第二个文件中的 50 个列表中的每一个重复此操作,并获得所有匹配元素的结果。

我已经为所有这些编写了代码,但这需要花费大量时间,因为它需要检查整个 100k 列表大约 50 次。我想提高速度。

我不能发布我的代码,因为它是大代码的一部分,很难从中推断出任何东西。

最佳答案

您可以从内存中的第一个文件一次读取所有“lakh”(数十万)行:

import collections
d = collections.defaultdict(list)

with open('lakhlists.txt') as f:
for line in f:
aslist = line.split() # assuming whitespace separators
d[aslist[1]].append(aslist)

你没有给我们很多关键参数,但我敢打赌这将适合典型模型平台的内存(为了合理猜测列表长度)。假设这部分有效,相比之下,只需循环遍历其他小文件并索引到 d 应该是微不足道的;-)

如果您想更准确地表达您的规范和相关数字(最好使用英语),也许可以提供更具体的帮助!

关于python - 索引以更快地搜索文件中的列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2941525/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com