gpt4 book ai didi

python - 一个分类器中的 NLTK 多个功能集?

转载 作者:行者123 更新时间:2023-11-28 22:02:20 33 4
gpt4 key购买 nike

在 NLTK 中,使用朴素贝叶斯分类器,我从示例中知道它非常简单地使用“词袋”方法并查找单字母组或双字母组或两者。你能用两组完全不同的特征来做同样的事情吗?

例如,我可以使用一元组和训练集的长度吗(我知道这里已经提到过一次)?但我更感兴趣的是文档中出现的 bigrams 和“bigrams”或 POS 的组合?

这是否超出了基本 NLTK 分类器的能力范围?

谢谢亚历克斯

最佳答案

NLTK 分类器可以使用任何键值字典。我使用 {"word": True} 进行文本分类,但您也可以使用 {"contains(word)": 1} 来达到相同的效果。您还可以将许多功能组合在一起,这样您就可以拥有 {"word": True, "something something": 1, "something else": "a"}。最重要的是你的特征是一致的,所以你总是有相同类型的键和一组固定的可能值。可以使用数值,但分类器对它们并不聪明——它将数字视为离散值,因此 99 和 100 与 1 和 100 一样不同。如果您希望以更智能的方式处理数字,那么我建议使用 scikit-learn 分类器。

关于python - 一个分类器中的 NLTK 多个功能集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11460115/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com