gpt4 book ai didi

machine-learning - 具有文本特征的数据集的逻辑回归

转载 作者:行者123 更新时间:2023-11-30 09:28:33 25 4
gpt4 key购买 nike

我有一个与此类似的数据集:

category 1  category 2  prediction

X a 1
Y b 0
Z b 1
X a 1
Y a 0
Z b 0
X b 1
Y f 1
Z d 1

假设这是三列。我想提一下,第 1 列和第 2 列是文本特征,而不是数字数据。我的输入数据将包含类别 1 中的 15-20 种不同类型。 类别 1 中的每个类型都可以在类别 2 中拥有一个类型。例如。 X 可以有两次或三次 a 类型的条目以及两次 b 类型的条目。第三列是输出。我想在这样的数据集上训练模型,最后在训练模型后,我想传递任何一个 category 1category 2,例如:X & a - 这应该给我一个 10 的预测输出。我打算为此目的使用逻辑回归。

问题:

  1. 由于我有文本数据,我是否应该使用虚拟数据并为每种类型创建一列? (例如,由于我有 XYZ,我应该创建三个不同的列并分配 10

  2. 我可以为此使用逻辑回归吗?或者它不适合我的应用程序? (我更愿意获得预测 1 的概率)

任何建议都会有帮助。

最佳答案

Logistic regression如果您的分类是基于每个类别的对数几率,则适合。对于二元分类,它的结果与同类方法没有太大差异。

是的,您应该使用“虚拟模型”来获取分类数据。这被称为“单热编码”,来自一种电气设计技术,在该技术中,在任何给定时间,簇中的一根电线将是“热”的(有电流)。对于您发布的数据,您将拥有类别 1 的三列和类别 2 的至少四列(a、b、d、f)。

关于machine-learning - 具有文本特征的数据集的逻辑回归,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51850210/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com