- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
Apache NLP,我可以从二进制文件中获取正确的 token 吗?
如果输入的是“hosr road”,这是拼写错误,正确的单词是“hosur road”,在二进制文件中搜索后,我可以得到正确的单词“hosur road”作为标记吗?
String input = "hosr road";
InputStream tokenModelIn = getClass().getClassLoader().getResourceAsStream("META-INF/nlp/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(tokenModelIn);
Tokenizer tokenizer = new TokenizerME(tokenModel);
String tokens[] = tokenizer.tokenize(input);
提前致谢。
最佳答案
简短回答:不,你不能。
OpenNLP 语言模型不是用于纠正给定语言拼写的字典。此外,“标记化”与“拼写纠正”不同。标记仅代表句子的片段,因此标记化(作为自然语言处理步骤)只会为您提供这些片段,即使它们拼写错误。它不会纠正这些。
如果您想对某些文本数据进行拼写纠正,您可以尝试另一个 API/框架。也许看看Lucene还有这个StackOverflow post .
关于java - 如何从 Apache OpenNLP 中的 'binary file' 获取拼写更正的标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31784680/
我想通过用语言环境拼写数字来本地化数字,最后使用了 ICU4J。我在许多地区都取得了成功,但似乎没有在格鲁吉亚、土耳其或阿拉伯语等地区完成。 ULocale locale = new ULocale(
我正在研究具有端点的 swagger API 规范: /authorizations 我也想为这个端点定义一个替代拼写(授权)。这可能吗?或者我是否需要为每个拼写定义一个单独的路由? /authori
我正在研究具有端点的 swagger API 规范: /authorizations 我也想为这个端点定义一个替代拼写(授权)。这可能吗?或者我是否需要为每个拼写定义一个单独的路由? /authori
我使用 Yahoo BOSS 的时间很短。这是一个简单的搜索 API,但拼写建议支持确实不那么强大。周围的人是否有任何关于在 BOSS 上获得更好的拼写建议的想法。 最佳答案 不幸的是,甚至在几年后,
问题如下:我正在编写一个强力解密器来破解一些 super secret 代码(这是一场竞赛,而不是犯罪),结果证明这是不可能的:树中的节点太多需要被搜查。为了克服这个问题,我认为检查中间“解决方案”以
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
我是一名优秀的程序员,十分优秀!