gpt4 book ai didi

python - 加速 n-gram 处理

转载 作者:行者123 更新时间:2023-11-28 17:33:17 29 4
gpt4 key购买 nike

我有一个包含很多单词 (100.000+) 的 uniqueWordList。这些单词中的每一个的 Trigrams 都在集合 allTriGrams 中。

我想建立一个以所有唯一的三元组为键的字典以及这些三元组可以匹配的所有单词作为值。

示例:

epicDict = {‘ban’:[‘banana’,’banned’],’nan’:[‘banana’]}

到目前为止我的代码:

for value in allTriGrams:   
for word in uniqueWordList:
if value in word:
epicDict.setdefault(value,[]).append(word)

我的问题:这种方法需要很多时间。有什么办法可以加快这个过程吗?

最佳答案

如果 uniqueWordList 是一个集合,那么您可以改为这样做:

if value in uniqueWordList:
epicDict.setdefault(value,[]).append(word)

检查一下: Python Sets vs Lists

关于python - 加速 n-gram 处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32784875/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com