gpt4 book ai didi

Python NLTK - 从语料库生成 'Dictionary' 并保存数字标签

转载 作者:行者123 更新时间:2023-12-01 04:41:05 24 4
gpt4 key购买 nike

我对 Python 不是很有经验,但我想用语料库进行一些数据分析,所以我在 NLTK Python 中完成这部分。

我想遍历整个语料库并制作一个包含语料库数据集中出现的每个单词的字典。我希望能够在这本词典中搜索一个单词,并找到该单词作为词性(标签)出现的次数。因此,例如,如果我要搜索“狗”,我可能会找到 100 个名词标签和 5 个动词标签等。

最终目标是将此文件外部保存为 .txt 或其他内容,并将其加载到另一个程序中以检查单词属于哪个标签的概率。

我会使用 Counter 和 ngrams 来完成此操作吗?

最佳答案

由于您只想要松散单词的 POS,因此不需要 ngram,您需要一个带标签的语料库。假设你的语料库已经被标记,你可以这样做。

>>> from nltk.corpus import brown
>>> wordcounts = nltk.ConditionalFreqDist(brown.tagged_words())
>>> wordcounts["set"].tabulate(10)
VBN VB NN VBD VBN-HL NN-HL
159 88 86 71 2 2

ConditionalFreqDist 基本上是一个 Counter 对象的字典,其中包含一些额外的内容。请在 NLTK 文档中查找它。

PS。如果您想在计数之前对单词进行大小写标准化,请使用

wordcounts = nltk.ConditionalFreqDist((w.lower(), t) for w, t in brown.tagged_words())

关于Python NLTK - 从语料库生成 'Dictionary' 并保存数字标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30697605/

24 4 0