gpt4 book ai didi

python 词分解为子词 : e. g。 motorbike -> 马达,自行车

转载 作者:行者123 更新时间:2023-12-05 03:18:21 25 4
gpt4 key购买 nike

我有一个单词列表,例如 [bike, motorbike, copyright]。现在我想检查这个词是否由子词组成,这些子词也是独立的词。这意味着我的算法输出应该类似于:[bike, motor, motorbike, copy, right, copyright]

我现在已经知道如何检查一个单词是否是英文单词:

import enchant
english_words = []
arr = [bike, motorbike, copyright, apfel]
d_brit = enchant.Dict("en_GB")
for word in arr:
if d_brit.check(word):
english_words.append(word)

我还找到了一种以所有可能的方式分解单词的算法:Splitting a word into all possible 'subwords' - All possible combinations

不幸的是,像这样拆分单词然后检查它是否是英文单词需要很长时间,因为我的数据集非常庞大。

有人能帮忙吗?

最佳答案

代码中使用的嵌套 for 循环在 Python 中非常慢。由于性能似乎是主要问题,我建议寻找可用的 Python 包来完成部分工作,或者构建您自己的扩展模块,例如使用 Cython,或者根本不使用 Python。

关于python 词分解为子词 : e. g。 motorbike -> 马达,自行车,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73749628/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com