gpt4 book ai didi

machine-learning - 如何减少n-gram特征?

转载 作者:行者123 更新时间:2023-11-30 08:54:15 26 4
gpt4 key购买 nike

我一直在处理文本处理中的问题。如果有人能帮助我,我将不胜感激。我有包含 12,000 条评论记录的数据集。当我对此运行 n-gram 提取器时,我获得了 170,000 个独特的 unigram + bigram,数量如此之多,以至于机器学习算法处理起来需要很长时间。

我应该如何减少这些提取的特征的数量?有什么特殊的算法什么的吗?

最佳答案

无需保留所有 N 元组。您应该按频率修剪 N 元语法列表。例如,仅考虑出现 40 次或以上的一元组。修剪二元组的截止值会更低。对于三元组等等,它还会更低。

关于machine-learning - 如何减少n-gram特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41959303/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com