gpt4 book ai didi

machine-learning - 在词袋中使用词性标记

转载 作者:行者123 更新时间:2023-11-30 09:53:27 25 4
gpt4 key购买 nike

我正在使用词袋进行文本分类。结果不够好,测试集准确率低于 70%。

我正在考虑的事情之一是使用词性标注来区分单词的功能。 to go 方法是如何做到这一点的?

我正在考虑将标签附加到单词上,例如单词“love”,如果它用作名词使用:

love_noun

如果是动词,则使用:

love_verb

最佳答案

如果您有数百个类别,测试集准确率接近 70% 也不算太差。您可能想要衡量整体精确度和召回率,而不是准确度。

您提出的听起来不错,这是一种将特征连词添加为附加特征的方法。以下是一些建议:

仍保留原有功能。也就是说,不要将 love 替换为 love_nounlove_verb。相反,您有两个来自的功能:

 love, love_noun (or)
love, love_verb

如果您需要一些示例代码,可以从nltk开始python 包。

>>> from nltk import pos_tag, word_tokenize
>>> pos_tag(word_tokenize("Love is a lovely thing"))
[('Love', 'NNP'), ('is', 'VBZ'), ('a', 'DT'), ('lovely', 'JJ'), ('thing', 'NN')]

考虑使用 n-gram,也许可以从添加 2-gram 开始。例如,您可能有“in”和“stock”,并且您可能只是删除“in”,因为它是一个停用词。如果您考虑 2-gram,您将获得一个新功能:

in-stock

与“stock”有不同的含义。在某些情况下,它可能会有很大帮助,例如区分“金融”和“购物”。

关于machine-learning - 在词袋中使用词性标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40248764/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com