gpt4 book ai didi

apache-spark - 使用 Spark ML 进行文本分类

转载 作者:行者123 更新时间:2023-11-30 09:29:25 24 4
gpt4 key购买 nike

我有一个自由文本描述,我需要根据它来执行分类。例如,描述可以是事件的描述。根据事件的描述,我需要预测与该事件相关的风险。例如:“镇上的谋杀案” - 此描述属于“高”风险。

我尝试了逻辑回归,但意识到目前仅支持二元分类。对于基于自由文本描述的多类分类(只有三个可能的值),最合适的算法是什么? (线性回归或朴素贝叶斯)

最佳答案

由于您正在使用 ,我假设你有 ,所以-我不是专家-但在阅读您的回答后,我想提出一些观点。

Create the Training (80%) and Testing Data Sets (20%)

我会将数据划分为训练 (60-70%)、测试 (15-20%) 和评估 (15- 20%)套..

这个想法是你可以微调你的分类算法。训练集,但我们真正想做的分类任务是让它们对看不见的数据进行分类。因此,使用测试集微调您的算法,完成后,使用评估集,以真正了解事物的工作原理!

Stop words

如果您的数据是来自报纸等的文章,我个人没有看到使用更复杂的停用词删除方法有任何显着的改进...

但这只是个人陈述,但如果我是你,我就不会关注这一步。

Term Frequency

使用 Term Frequency-Inverse Document Frequency (TF-IDF) 怎么样?相反,术语权重?您可能想阅读:How can I create a TF-IDF for Text Classification using Spark?

我会尝试两者并进行比较!

Multinomial

您有什么特别的理由尝试多项分布吗?如果不是,因为当 n 为 1 并且 k 为 2 时,多项分布是伯努利分布,如 Wikipedia 中所述。 ,其中is supported .

尝试两者并进行比较(如果你想让你的模型更好,这是你必须习惯的!:))

<小时/>

我还看到 优惠Random forests ,至少值得一读! ;)

<小时/>

如果您的数据不是那么大,我也会尝试支持向量机 (SVM),来自 scikit-learn ,但是支持 ,所以你应该切换到 或普通 ,放弃 。顺便说一句,如果你真的想要 sklearn,这可能会派上用场:How to split into train, test and evaluation sets in sklearn? ,因为 Pandas 与 sklearn 配合得很好。

希望这有帮助!

<小时/>

离题:

这确实不是在 Stack Overflow 中提问的方式。阅读 How to ask a good question?

就我个人而言,如果我是你,我会先做你在答案中所做的所有事情,然后发布一个问题,总结我的方法。

关于赏金,你可能想阅读:How does the Bounty System work?

关于apache-spark - 使用 Spark ML 进行文本分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39316140/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com