gpt4 book ai didi

machine-learning - 可以自动找到停用词吗?

转载 作者:行者123 更新时间:2023-11-30 08:22:50 25 4
gpt4 key购买 nike

在 NLP 中,停用词去除是典型的预处理步骤。它通常是根据我们认为的停用词应该是什么样的经验方式来完成的。

但在我看来,我们应该概括停用词的概念。对于不同领域的语料库,停用词可能会有所不同。我想知道我们是否可以从数学上定义停用词,例如通过其统计特征。然后我们可以自动从特定领域的语料库中提取停用词。

这方面是否有类似的想法和进展?有人能解释一下吗?

最佳答案

我不是专家,但希望我的回答有意义。

从语料库中统计提取停用词听起来很有趣!除了使用常见停用词列表中的常规停用词(如 NLTK 中的停用词)之外,我还会考虑计算逆文档频率,正如其他答案中提到的那样。停用词不仅因语料库而异,而且因问题而异。例如,在我正在解决的一个问题中,我使用了新闻文章语料库,您可以在其中找到很多时间敏感和位置敏感的单词。这些都是至关重要的信息,从统计上删除“今天”、“这里”等词会严重影响我的结果。因为新闻文章不仅谈论一个特定事件,还谈论过去或在另一个地点发生的类似事件。

简而言之,我的观点是,您还需要考虑正在解决的问题,而不仅仅是语料库。

谢谢,拉姆亚

关于machine-learning - 可以自动找到停用词吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22370144/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com