gpt4 book ai didi

machine-learning - NLP:计算文档属于某个主题(带有词袋)的概率?

转载 作者:行者123 更新时间:2023-11-30 09:27:37 25 4
gpt4 key购买 nike

给定一个主题,我如何计算文档“属于”该主题(即体育)的概率

这就是我必须处理的事情:

1) 我知道与该主题相关的文档中的常用单词(消除所有停用词),以及包含该单词的文档的百分比例如,如果主题是体育,我知道:

75% of sports documents have the word "play"
70% have the word "stadium"
40% have the word "contract"
30% have the word "baseball"

2)鉴于此,以及一个包含一堆单词的文档,我如何计算该文档属于该主题的概率?

最佳答案

这是一个以主题为类、以单词为特征的模糊分类问题。通常,您没有每个主题的词袋,而是一组文档和相关主题,因此我将首先描述这种情况。

查找概率的最自然方法(与概率论中使用的含义相同)是使用朴素贝叶斯分类器。这个算法已经被描述过很多次了,所以这里不再赘述。你可以在this synopsis中找到很好的解释。或相关Coursera NLP lectures

您还可以使用许多其他算法。例如,您的描述自然适合 tf*idf 基于分类器。 tf*idf(词频 * 逆文档频率)是现代搜索引擎中用于计算文档中单词重要性的统计数据。对于分类,您可以计算每个主题的“平均文档”,然后使用 cosine similarity 查找新文档与每个主题的接近程度。 。

如果您的情况与您所描述的完全一样 - 只有主题和相关单词 - 只需将每个单词包视为一个文档,其中可能包含重复的常用单词。

关于machine-learning - NLP:计算文档属于某个主题(带有词袋)的概率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17904132/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com