gpt4 book ai didi

information-retrieval - 如何使用tf-idf选择停用词? (非英语语料库)

转载 作者:行者123 更新时间:2023-12-04 10:39:58 25 4
gpt4 key购买 nike

我设法评估了给定语料库的tf-idf function。如何找到每个文档的停用词和最佳词汇?我知道给定单词和文档的tf-idf低意味着它不是选择该文档的好单词。

最佳答案

停用词是在文档中非常普遍出现的那些词,因此失去了它们的代表性。观察此现象的最佳方法是测量一个词条中出现的文档数,并过滤出其中50%以上,或者您需要调整的前500个阈值或某种类型的阈值中出现的那些文档。

文档中最好的术语(如更具代表性的术语)是tf-idf较高的术语,因为这些术语在文档中很常见,而在集合中很少见。

很快,正如@Kevin所指出的,集合中非常常见的术语(即停用词)总会产生非常低的tf-idf。但是,它们将更改某些计算,如果您假设它们是纯噪声(根据任务可能不正确),这将是错误的。另外,如果包含它们,您的算法将稍微慢一些。

编辑:
正如@FelipeHammel所说,您可以直接使用IDF(请记住要反转顺序)作为与df成反比的度量。这完全等同于排名目的,因此可以选择排名靠前的“k”项。但是,尽管使用简单的阈值将解决此问题(即,选择idf低于特定值的字词),但无法使用它来基于比率(例如,出现在文档中超过50%的单词)进行选择。 。通常,使用固定数量的术语。

我希望这有帮助。

关于information-retrieval - 如何使用tf-idf选择停用词? (非英语语料库),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16927494/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com