python 词分解为子词 : e. g。 motorbike -> 马达，自行车-6ren

python 词分解为子词 : e. g。 motorbike -> 马达，自行车

转载作者：行者123 更新时间：2023-12-05 03:18:21

我有一个单词列表，例如 [bike, motorbike, copyright]。现在我想检查这个词是否由子词组成，这些子词也是独立的词。这意味着我的算法输出应该类似于:[bike, motor, motorbike, copy, right, copyright]。

我现在已经知道如何检查一个单词是否是英文单词:

import enchant
english_words = []
arr = [bike, motorbike, copyright, apfel]
d_brit = enchant.Dict("en_GB")
for word in arr:
    if d_brit.check(word):
        english_words.append(word)

我还找到了一种以所有可能的方式分解单词的算法:Splitting a word into all possible 'subwords' - All possible combinations

不幸的是，像这样拆分单词然后检查它是否是英文单词需要很长时间，因为我的数据集非常庞大。

有人能帮忙吗？

最佳答案

代码中使用的嵌套 for 循环在 Python 中非常慢。由于性能似乎是主要问题，我建议寻找可用的 Python 包来完成部分工作，或者构建您自己的扩展模块，例如使用 Cython，或者根本不使用 Python。

关于python 词分解为子词 : e. g。 motorbike -> 马达，自行车，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/73749628/

文章推荐： bash - 使用 bash/printf 打印和填充字符串

文章推荐： python - 如何将 tqdm 控制台输出记录到 Python 中的文件中？

文章推荐： c++ - 如何定义采用可变类模板的函数？

文章推荐：无法在 MacOS 上从 shm_open 写入 fd

php - 根据用户答案从数据库中选择宠元素种/汽车/自行车/等的算法
这个问题更多的是关于在正确的方向上找到一个点。我继承并开发了一个项目来创建汽车选择数据库(匹配用户偏好)。它已经运行得比较好，但可能会更好(存在一些问题)，所以我想研究其他人使用的其他一些算法。我正在
python 词分解为子词 : e. g。 motorbike -> 马达，自行车
我有一个单词列表，例如 [bike, motorbike, copyright]。现在我想检查这个词是否由子词组成，这些子词也是独立的词。这意味着我的算法输出应该类似于:[bike, motor, m
javascript - 使用 Reflux，资源是 2 家商店还是 1 家商店？ (自行车/CurrentBike 与自行车)
我仍在努力思考前端状态。是否有为资源设置商店的通用最佳实践？例如，我的 web api 有: GET /bikes GET /bikes/:id 我开始时只有一个 BikeStore 和 bikes:

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python 词分解为子词 : e. g。 motorbike -> 马达，自行车