gpt4 book ai didi

nlp - 如何自动检测文本文件中的句子片段

转载 作者:行者123 更新时间:2023-12-02 03:36:14 27 4
gpt4 key购买 nike

我正在做一个项目,需要一个工具或 API 来检测大文本中的句子片段。有许多解决方案,例如 OpenNLP 用于检测给定文件中的句子。但是,对于查找不属于任何语法正确句子的单词、短语或事件字符组合的问题,我无法找到任何明确的解决方案。

任何帮助将不胜感激。

谢谢,

洛德隆

最佳答案

您可以使用 n-grams 作为解决方法:

假设您有大量带有真实句子的文本供引用。您可以提取 1、2、3、4、5 或更多单词的所有序列,然后在您的文本中仔细检查文本中的片段是否以 n-gram 形式存在。

您可以直接从谷歌下载 n-gram:http://googleresearch.blogspot.de/2006/08/all-our-n-gram-are-belong-to-you.html但您可能需要大量流量。

你也可以自己计算 n-grams 在这种情况下你可以从我的网站上获取维基百科的解析数据集: http://glm.rene-pickhardt.de/data/和来自 https://github.com/renepickhardt/generalized-language-modeling-toolkit 的源代码为了自己创建 ngram(或任何其他 ngram 工具包,如 srilm、kylm、opengrm 等)

关于nlp - 如何自动检测文本文件中的句子片段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23274846/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com