gpt4 book ai didi

machine-learning - 数据标准化引用

转载 作者:行者123 更新时间:2023-11-30 08:26:11 25 4
gpt4 key购买 nike

NN和其他机器学习算法的数据规范化的最佳做法是什么(不确定这是否是正确的术语)?我的意思是您如何将数据表示为NN/算法。

例如,您如何表示商店代码?商店555不大于或小于554,它只是一个分类。 NN/算法模型是自己过滤掉的还是您需要促使它们进行分类而不是数学上的区分?

感谢您为我提供适当信息方面的帮助。我显然是新来的。

编辑:谢谢大家的回答。我一直在研究大量的数据挖掘书籍,虽然我发现有几本在数据预处理主题上花费了一两章,但我对其中的大部分内容感到有些惊讶。再次感谢。

最佳答案

我从未找到任何有关“数据预处理”主题的综合资源。

您的问题针对机器学习中必不可少的谓词步骤,即将数据中的每个变量(变量仅指SQL表中的字段或数据矩阵中的列)标识为连续变量还是离散变量。离散变量也称为因子和分类变量。 (还有第三种类型,时间(通常是您选择的语言中的特殊数据类型),它是前两种类型之间的真正混合体。)

我可以推荐的一个来源是(绝不是我读过的最好的书,甚至不是我读过的最好的书,而是我可以从内存中记忆起的一个标题,它很好地描述了手头的问题并提供了一些有教养的指导):

O'Reilly Eds的Sarah Boslaugh和Paul Andrew Watters撰写的 Statistics Nutshell 。 (第10章分类变量)

离散/分类变量

分类变量(R中的“因子”)是变量,例如性别(值:男性/女性),居住状态(例如佛蒙特州,爱达荷州等),眼睛颜色以及您的问题,商店编号。商店编号可能是555,但您可能应该将其记录为字符串而不是整数或浮点数(即,以便算法将值555当作“555”一样对待。)在统计平台(例如SAS,SPSS,R)上工作时,该平台将提供特定的指导,例如在R中,导入数据时通常将商店编号设置为一个因素。

对于任何分析工作而言,连续变量和因子之间的区别绝对是必不可少的,因为它决定了(i)您可以对数据进行的分析操作; (ii)您可以使用的预测算法的类型。

第一项是cross-tabulation(R中的功能xtabs),是一项常见的分析操作,只能对因子执行。 (注意:如果记录百分比而不是原始计数,则称为列联表。)假设您有一个数据集,该数据集由来自服务器访问日志的行聚合而成,因此一行在一个 session 中是一个用户。假设您已将日志配置为记录引荐URL和浏览器类型等信息。这两个变量的交叉表仅显示了每个变量每个值的所有组合的频率用户。因此,如果数据中有三个引荐网址和四种浏览器类型,则结果表将具有12个单元格。同样,交叉制表仅适用于离散变量。

将变量分为离散变量和连续变量的另一个原因是,您可以根据响应变量(尝试预测的变量)是离散变量还是连续变量来选择和/或配置机器学习算法。

测量变量类型的正交分类(同样,我指的是数据集中的列)与响应的关系(有时是独立的,也有从属的)。因此,例如,您为网站的每个未注册访问者记录了各种 session 详细信息,例如查看的页面,查看的总页面数,每页的总时间,入站引荐链接,出站链接等,这些都是测量的变量。衡量这些因素的原因之一是预测新用户是否最终将注册,如果注册,则他们将注册高级服务。这些是响应变量。

在这种情况下,响应变量可能是“注册用户”和“高级订户”,并且两者的值都是"is"或“否”,这使其成为离散变量。

当您的响应变量(您要预测的事物)是因子/离散变量时,您会遇到分类问题。您的机器学习算法返回的是一个类标签(例如,注册用户或“非r/u”)。

另一方面,如果您的响应变量是连续的(假设您想预测体育博彩网站上新客户的预期终生值(value)(以总投注额为准)),那么您的问题不是分类,而是回归。换句话说,您的算法必须返回一个值,通常是浮点数。

您可以在问题中提到的许多机器学习算法(包括神经网络)(例如支持向量机和KNN)都可以轻松配置为以分类或回归模式运行。

连续变量

连续变量是诸如时间(以秒为单位),每位用户的登录 session 数,体重,年龄,消耗的总卡路里等之类的东西-用浮点数或更少的整数表示的事物并相应地递增(即比56多1秒秒是57秒)。

处理这些问题(一旦您确定数据集中的哪些变量实际上是连续的),通常只涉及到令人困惑的标准化,缩放或标准化步骤。尽管它们在实践中可以互换使用,但实际上是指由不同情况所证明的独立转换。

随意使用或不使用这些术语,尽管将三个分开
可能有助于调和您在文献中看到的或在实践中使用的所有这些技术。

  • 重新缩放:例如,更改度量单位;例如,更改度量单位。到
    重新缩放您添加/减去常量
    然后乘以/除以另一个
    持续的。这比显示更容易
    描述,例如,从
    摄氏到华氏度,您将32加
    摄氏温度然后相乘
    该值是9/5;
  • 归一化:除以规范。例如,如果
    数据集中的行是[1.23,2.21,
    0.84、3.54、1.90],然后按照其规范逐个跳水(即
    在这种情况下约为4.8)。当你做
    那,你得到的归一化行是
    [0.255、0.458、0.174、0.734、0.39]。
    如果您使用Python + NumPy,则
    表达式为normalized_row1 = row1
    /LA.norm(row1),带有谓词
    导入语句import numpy.linalg
    作为LA');
  • 标准化:指减法和减法的两步过程
    除法,例如在
    您减去“标准普通”形式
    均值和除以标准
    偏差,之后您的随机
    变量的平均值为0,SD为
    1.
  • 关于machine-learning - 数据标准化引用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5652357/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com