gpt4 book ai didi

java - 如何从 Apache OpenNLP 中的 'binary file' 获取拼写更正的标记?

转载 作者:行者123 更新时间:2023-12-01 11:16:23 25 4
gpt4 key购买 nike

Apache NLP,我可以从二进制文件中获取正确的 token 吗?

如果输入的是“hosr road”,这是拼写错误,正确的单词是“hosur road”,在二进制文件中搜索后,我可以得到正确的单词“hosur road”作为标记吗?

    String input = "hosr road";
InputStream tokenModelIn = getClass().getClassLoader().getResourceAsStream("META-INF/nlp/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(tokenModelIn);
Tokenizer tokenizer = new TokenizerME(tokenModel);
String tokens[] = tokenizer.tokenize(input);

提前致谢。

最佳答案

简短回答:不,你不能。

OpenNLP 语言模型不是用于纠正给定语言拼写的字典。此外,“标记化”与“拼写纠正”不同。标记仅代表句子的片段,因此标记化(作为自然语言处理步骤)只会为您提供这些片段,即使它们拼写错误。它不会纠正这些。

如果您想对某些文本数据进行拼写纠正,您可以尝试另一个 API/框架。也许看看Lucene还有这个StackOverflow post .

关于java - 如何从 Apache OpenNLP 中的 'binary file' 获取拼写更正的标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31784680/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com