gpt4 book ai didi

machine-learning - 如何选择和使用不同数据类型的特征?

转载 作者:行者123 更新时间:2023-11-30 08:55:17 25 4
gpt4 key购买 nike

我是机器学习的新手,虽然我有一些 sci-kit 分类器在我的数据集上“工作”,但我不确定我是否正确使用它们。我正在使用手工标记的训练集进行监督学习。

问题是:我的数据集中的每个项目都是一本字典,大约有。 80 个键,它们可以是我想用作特征的文本、 bool 值或整数。我有大约 40,000 件元素,其中大约 800 件是手工贴上标签的。例如,我是否打算仅选择要使用的 bool 功能,或仅选择整数?我是否需要对特征进行标准化(删除平均值+尺度到单位方差)?我目前甚至不打算尝试分析文本,因此甚至不值得将这些功能提供给分类器。仅仅尝试相同类型(整数)特征的各种排列/组合会很愚蠢吗?也可能是我完全错误地处理了我的数据集......它的形状如下:

[[a,b,c,...],[a,b,c,...],[a,b,c,...],...]

本质上,我希望实现的是数据集中每个项目的二元分类,基本上只是根据我手动标记的“好”或“坏”。我读到一些分类器在不同的数据类型上工作得更好,比如伯努利朴素贝叶斯,而 K 最近邻在“决策边界非常不规则”时工作。

最终,我希望对几种不同算法的分类器准确性进行比较,此外希望隔离出对我的数据进行分类实际上准确的算法......

最佳答案

scikit-learn 中的所有分类器都需要数字数据。 bool 特征很好,对于整数特征,它取决于它们是否编码分类、序数或数字数据。

您需要执行的预处理取决于功能的类型,而不是取决于您是否要组合它们。将它们结合起来可能是个好主意。

您可以使用 CountVectorizer 或 TFIDFVectorizer 对文本数据进行简单的转换。

关于machine-learning - 如何选择和使用不同数据类型的特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29477568/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com