- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个单词列表,例如 [bike, motorbike, copyright]
。现在我想检查这个词是否由子词组成,这些子词也是独立的词。这意味着我的算法输出应该类似于:[bike, motor, motorbike, copy, right, copyright]
。
我现在已经知道如何检查一个单词是否是英文单词:
import enchant
english_words = []
arr = [bike, motorbike, copyright, apfel]
d_brit = enchant.Dict("en_GB")
for word in arr:
if d_brit.check(word):
english_words.append(word)
我还找到了一种以所有可能的方式分解单词的算法:Splitting a word into all possible 'subwords' - All possible combinations
不幸的是,像这样拆分单词然后检查它是否是英文单词需要很长时间,因为我的数据集非常庞大。
有人能帮忙吗?
最佳答案
代码中使用的嵌套 for 循环在 Python 中非常慢。由于性能似乎是主要问题,我建议寻找可用的 Python 包来完成部分工作,或者构建您自己的扩展模块,例如使用 Cython,或者根本不使用 Python。
关于python 词分解为子词 : e. g。 motorbike -> 马达,自行车,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73749628/
这个问题更多的是关于在正确的方向上找到一个点。我继承并开发了一个项目来创建汽车选择数据库(匹配用户偏好)。它已经运行得比较好,但可能会更好(存在一些问题),所以我想研究其他人使用的其他一些算法。我正在
我有一个单词列表,例如 [bike, motorbike, copyright]。现在我想检查这个词是否由子词组成,这些子词也是独立的词。这意味着我的算法输出应该类似于:[bike, motor, m
我仍在努力思考前端状态。是否有为资源设置商店的通用最佳实践?例如,我的 web api 有: GET /bikes GET /bikes/:id 我开始时只有一个 BikeStore 和 bikes:
我是一名优秀的程序员,十分优秀!