gpt4 book ai didi

python - 使用语言模型进行术语加权

转载 作者:行者123 更新时间:2023-11-30 09:11:51 26 4
gpt4 key购买 nike

我了解 scikit 使用矢量化器支持 n-gram。但这些只是字符串。我想使用统计语言模型( https://en.wikipedia.org/wiki/Language_model ),如下所示: http://www.nltk.org/_modules/nltk/model/ngram.html .

所以,我想要的是一个使用概率作为术语权重的向量化器,而不是说 tf-idf 或简单的标记计数。 scikit 不支持这是否有原因?我对语言建模相对缺乏经验,所以我不确定这种方法对于文本分类是否是个好主意。

最佳答案

这取决于您所说的术语的含义。如果像往常一样,术语只是一个单词,那么概率模型的工作原理与...简单的 tf 加权(即使没有 idf!)。为什么?因为 P(word) 的经验估计量只是 # word/# all_words,并且由于 # all_words 是常数,那么权重就变成 #word,这是简单的词频。所以从这个意义上说,scikit 满足了您的需要。

好吧,也许您想考虑上下文?那么什么样的语境呢?您想独立分析P(pre-word1, word)并将其用作word的加权和吗?那为什么不P(word, post-word1)呢?为什么不是 P(pre-word2, pre-word1, word, post-word1, post-word2) 等?当二元模型不可用时,为什么不包括一些基于一元模型的重新加权呢?答案很简单,一旦您开始使用语言模型作为权重方案,可能的引入数量就会呈指数级增长,并且不存在值得作为库的“标准”实现的“典型”方法>不是 NLP 库。

关于python - 使用语言模型进行术语加权,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33899867/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com