gpt4 book ai didi

python - 使用像 PMI 这样的 bigram_measures 时何时删除停用词?

转载 作者:行者123 更新时间:2023-12-04 14:25:03 24 4
gpt4 key购买 nike

我需要验证处理从 bigram_measures 返回的 bigram 停用词(例如 PMI)的整体方法。为什么要处理这些停用词?好吧,它们是噪音,并且不会在某一点之后增加任何额外的值(value)。

我看过几个关于如何使用 bigram_measures 的具体例子。但是,我想知道何时最好在清理数据、扩展、词形还原/词干提取等整个过程中删除停用词。

是的,我使用的语料库足够大。我记得你的语料库的大小也会影响 bigram_measures 结果的质量。

根据这篇文章 (NLTK - Counting Frequency of Bigram) 中接受的答案,似乎可以在语料库上使用 PMI 或其他 bigram_measures 后删除停用词。

"Imagine that if filtering collocations was simply deleting them, then there were many probability measures such as liklihood ratio or the PMI itself (that compute probability of a word relative to other words in a corpus) which would not function properly after deleting words from random positions in the given corpus. By deleting some collocations from the given list of words, many potential functionalities and computations would be disabled..."



因此,我认为最好的过程是:
  • 清理文本并删除垃圾字符,如 HTML 标签等。
  • 展开收缩(例如:它们是 -> 它们是)
  • 词形还原或词干使单词标准化
  • 使用 bigram_measures 计算 bigrams,如 PMI。您可以使用其他方法计算二元组,但这是我正在使用的。
  • 应用诸如“apply_freq_filter(N)”之类的频率过滤器来获取出现在阈值之上的二元组。请注意,这仍然会返回一些带有停用词和有值(value)的二元词的二元词。
  • 检查两个词是否都是停用词。如果是,则不要在最终结果中包含该二元组,而是出于上述原因将它们留在语料库中。

  • 这是处理与有值(value)的二元词混合的二元词停用词的正确整体方法吗?

    谢谢。

    最佳答案

    在做额外的研究之后,我会在下面给出答案。

    一种方法是:
    - 清理文本
    - 扩大收缩
    - 词形还原
    - 删除停用词
    - 运行 PMI 或其他措施来对 n-gram 进行评分。

    来源:使用 Python 进行文本分析,第 224 页。

    我提供上述来源的目的是显示我从哪里收到这个答案,而不是提供一些毫无根据的答案。如果版主认为这是“推荐”,那么我会删除它。

    关于python - 使用像 PMI 这样的 bigram_measures 时何时删除停用词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47687797/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com