gpt4 book ai didi

machine-learning - 只考虑 a-zA-Z 和数字进行训练和测试有意义吗?

转载 作者:行者123 更新时间:2023-11-30 09:53:56 26 4
gpt4 key购买 nike

我正在为股票相关的新闻文章创建文本分类器。我使用文章中的整个文本进行训练和测试。

我看到了一种方法,人们对文本进行预处理,即“使用正则表达式仅考虑 a-zA-Z0-9 并用空格“”替换其余字符。

哪种方法是正确的?这种额外的预处理有意义吗?

最佳答案

这要看情况。在大多数示例中,它们会删除许多字符,并且在某些情况下(取决于您的数据)它可以减少维度(例如,具有 TF-IDF 的词袋模型),从而为您提供更好的结果。但在其他地方,您必须考虑其他一些字符,例如标点符号。

例如你想检查一个句子是否是疑问句(带分类),那么几乎必须考虑像“?”这样的标点符号。

最后,考虑您的数据,然后尝试使用不同的前置模型并将最终结果(例如分类的交叉验证)相互比较,并选择最佳模型。

关于machine-learning - 只考虑 a-zA-Z 和数字进行训练和测试有意义吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38739236/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com