gpt4 book ai didi

machine-learning - 机器学习 - 巨大的正文本数据集

转载 作者:行者123 更新时间:2023-11-30 08:46:20 25 4
gpt4 key购买 nike

我有一个数据集,其中包含属于某个主题的数千个句子。我想知道什么是最好的创建一个分类器,根据他们是否谈论该主题来预测文本为“真”或“假”。

我一直在使用包含 Weka(基本分类器)和 Tensorflow(神经网络方法)的解决方案。

我使用字符串到词向量来预处理数据。

由于没有负样本,我只处理一个类。我尝试过一类分类器(Weka 中的 libSVM),但误报数量如此之高,我无法使用它。

我也尝试添加负样本,但是当要预测的文本不属于负空间时,我尝试过的分类器(NB、CNN...)倾向于将其预测为误报。我猜这是因为阳性样本数量太多

如有必要,我愿意放弃机器学习作为预测新传入数据的工具

感谢您的帮助

最佳答案

我最终添加了负类的数据,并构建了一个多线朴素贝叶斯分类器,它按预期完成了工作。

(添加的数据大小约为一百万个样本:))

关于machine-learning - 机器学习 - 巨大的正文本数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45116034/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com