- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有单词列表,我想通过考虑两个单词的共现来计算它们的相关性。从一篇论文中我发现它可以使用 PIL 森卡方检验来计算。我还找到了用于计算卡方值的 nltk.BigramAssocMeasures.ch_sq() 。
我可以用它来满足我的需要吗?如何使用 nltk 找到卡方值?
最佳答案
看看this blog from Streamhacker ,它通过代码示例给出了很好的解释。
One of the best metrics for information gain is chi square. NLTK includes this in the BigramAssocMeasures class in the metrics package. To use it, first we need to calculate a few frequencies for each word: its overall frequency and its frequency within each class. This is done with a FreqDist for overall frequency of words, and a ConditionalFreqDist where the conditions are the class labels. Once we have those numbers, we can score words with the BigramAssocMeasures.chi_sq function, then sort the words by score and take the top 10000. We then put these words into a set, and use a set membership test in our feature selection function to select only those words that appear in the set. Now each file is classified based on the presence of these high information words.
关于python - 如何使用 NLTK BigramAssocMeasures.ch_sq,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15401497/
我有单词列表,我想通过考虑两个单词的共现来计算它们的相关性。从一篇论文中我发现它可以使用 PIL 森卡方检验来计算。我还找到了用于计算卡方值的 nltk.BigramAssocMeasures.ch_
我正在使用 NLTK 的 BigramAssocMeasures.chi_sq 来找出不同类别的单词提供的信息内容。但是我无法弄清楚如何为此功能提供数据。 NLTK 的定义说"""使用卡方对二元组进行
我是一名优秀的程序员,十分优秀!