gpt4 book ai didi

c# - 已知的 "filler"单词列表;如何使用 C# 提取好的关键字?

转载 作者:太空狗 更新时间:2023-10-30 00:20:31 24 4
gpt4 key购买 nike

如果我有一段英文文本,清除所有“填充”词(如“the、it、or、we、us”等)的最佳方法是什么...只留下可行的词被认为是文本的真实核心内容?

我正在集思广益,想出一种方法,根据关键字组成的相似程度自动将文本 block 连接在一起。

我不是第一个想到这一点的人。是否有一种流行的有效方法可以使用 C# 完成此操作?

更新

我试图从本质上将一个文本 block 链接到 n 个“相关”文本 block ,其中主要“内容”非常相似,以至于可以将其视为相关文本的附加信息...

最佳答案

这个东西叫stop words - 通常1对于理解数据不是必需的词,并被索引器删除。

几乎所有 Information Retrieval我知道的系统实现了一个标记器来过滤这些词。

我熟悉java的lucene,有StandardAnalyzer那是为你做的,但我假设这个分析器也存在于 lucene.net 中- 您可能想要跟踪并使用它。

您可能还对 stemming 感兴趣,这也是在 lucene 中由 EnglishAnalyzer 完成的例如。


(1) 为什么通常?例如,在讽刺独裁者中 - 似乎(根据经验)停用词对于获得良好结果至关重要。

关于c# - 已知的 "filler"单词列表;如何使用 C# 提取好的关键字?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11136483/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com