gpt4 book ai didi

python - 使用 Scikit Learn SVM 为文本分类准备数据

转载 作者:太空狗 更新时间:2023-10-29 17:57:25 25 4
gpt4 key购买 nike

我正在尝试应用 Scikit 中的 SVM 学习对我收集的推文进行分类。因此,将有两个类别,将它们命名为 A 和 B。现在,我将所有推文分类在两个文本文件中,“A.txt”和“B.txt”。但是,我不确定 Scikit Learn SVM 需要什么类型的数据输入。我有一个以标签(A 和 B)作为键的字典,以及一个特征字典(unigrams)及其频率作为值。抱歉,我是机器学习的新手,不确定我应该怎么做才能让 SVM 正常工作。我发现 SVM 使用 numpy.ndarray 作为其数据输入的类型。我需要根据自己的数据创建一个吗?应该是这样的吗?

Labels    features    frequency
A 'book' 54
B 'movies' 32

感谢任何帮助。

最佳答案

查看 text feature extraction 上的文档.

另请查看 text classification example .

这里还有教程:​​

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

特别是不要过分关注 SVM 模型(尤其是 sklearn.svm.SVC,它对内核模型更有趣,因此不是文本分类):一个简单的感知器、LogisticRegression 或 Bernoulli朴素贝叶斯模型可能同样有效,同时训练速度更快。

关于python - 使用 Scikit Learn SVM 为文本分类准备数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13942744/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com