gpt4 book ai didi

python - 使用 NLTK 的 FreqDist

转载 作者:IT老高 更新时间:2023-10-28 22:23:24 27 4
gpt4 key购买 nike

Python 包 nltk 具有 FreqDist函数为您提供文本中单词的频率。我正在尝试将我的文本作为参数传递,但结果是以下形式:

[' ', 'e', 'a', 'o', 'n', 'i', 't', 'r', 's', 'l', 'd', 'h', 'c', 'y', 'b', 'u', 'g', '\n', 'm', 'p', 'w', 'f', ',', 'v', '.', "'", 'k', 'B', '"', 'M', 'H', '9', 'C', '-', 'N', 'S', '1', 'A', 'G', 'P', 'T', 'W', '[', ']', '(', ')', '0', '7', 'E', 'J', 'O', 'R', 'j', 'x']

而在 nltk 网站上的示例中,结果是整个单词而不是字符。以下是我目前使用该功能的方式:

file_y = open(fileurl)
p = file_y.read()
fdist = FreqDist(p)
vocab = fdist.keys()
vocab[:100]

我做错了什么?

最佳答案

FreqDist 需要一个可迭代的标记。字符串是可迭代的——迭代器产生每个字符。

首先将您的文本传递给标记器,然后将标记传递给 FreqDist

关于python - 使用 NLTK 的 FreqDist,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4634787/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com