- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在进行数据预处理时,建议进行缩放或归一化。当你手上有数据时,这很容易做到。您拥有所有数据并且可以立即执行。但是在模型构建并运行之后,输入的第一批数据是否需要进行缩放或标准化?如果需要,它只有一行,如何缩放或标准化它?我们如何知道每个特征的最小值/最大值/平均值/标准差是多少?传入的数据如何是每个特征的最小/最大/平均值?
请指教
最佳答案
首先,您应该知道何时使用缩放和标准化。
缩放 - 缩放只不过是将您的特征转换为可比较的量级。假设您有像人的收入这样的特征,并且您注意到有些特征的值为 10^3 量级,有些特征的值为 10^3 量级有 10^6。现在,如果您使用此特征对问题进行建模,那么像 KNN、岭回归这样的算法将为此类属性的较高量级赋予更高的权重。为了防止这种情况,您需要首先缩放您的特征。最小-最大缩放器是其中之一最常用的缩放。
均值归一化 -如果在检查特征的分布后,你发现特征不是以零为中心,那么对于像 svm 这样的算法,目标函数已经假设零均值和同阶方差,我们在建模时可能会遇到问题。所以在这里你应该进行均值归一化.
标准化 - 对于像 svm、神经网络、逻辑回归这样的算法,必须有相同顺序的特征方差。所以我们为什么不这样做一。所以在标准化中,我们使特征的分布为零均值和单位方差。
现在让我们尝试在训练和测试集方面回答您的问题。假设您正在 50k 数据集上训练模型并在 10k 数据集上进行测试。对于上述三种转换,标准方法表明您应该将任何标准化器或缩放器仅适合训练数据集,并仅对测试数据集使用转换。在我们的例子中,如果我们想使用标准化,那么我们将首先在 50k 训练数据集上拟合标准化器,然后用于转换 50k 训练数据集和测试数据集。
注意 - 我们不应该将标准化器拟合到测试数据集,而是使用已经拟合的标准化器来转换测试数据集。
关于machine-learning - 数据科学缩放/标准化真实案例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46032217/
这个问题在这里已经有了答案: Oracle: merging two different queries into one, LIKE & IN (1 个回答) 8年前关闭。 我有以下代码: case
我查阅过此页面:http://dev.mysql.com/doc/refman/5.1/en/case.html以及这个,但无法获得一个简单的程序来工作...... 更新:为了明确我想要做什么:我想从
有什么办法可以优化下面的查询吗? SELECT DATE_FORMAT(a.duedate,'%d-%b-%y') AS dte, duedate, SUM(CASE WHEN (typeofnoti
我进退两难,以下 SQL 查询的结果是什么以及它是如何工作的: SELECT ... CASE WHEN (a.FIELD=1 AND b.FIELD=2) THEN 1 WHEN
问题:输入年,月,打印对应年月的日历。 示例: 问题分析: 1,首先1970年是Unix系统诞生的时间,1970年成为Unix的元年,1970年1月1号是星期四,现在大多的手机的日历功能只能显
**摘要:**介绍了Angular中依赖注入是如何查找依赖,如何配置提供商,如何用限定和过滤作用的装饰器拿到想要的实例,进一步通过N个案例分析如何结合依赖注入的知识点来解决开发编程中会遇到的问题。 本
我想拥有自动伴侣类apply case 类的构造函数来为我执行隐式转换,但无法弄清楚如何这样做。我到处搜索,我能找到的最接近的答案是 this问题(我将解释为什么它不是我在下面寻找的)。 我有一个看起
您好,我已经浏览了“多列案例”问题,但没有看到与此相同的内容,所以我想我应该问一下。 基本上我有两个我想要连接的表(都是子查询的结果)。它们具有相同的列名称。如果我加入他们的 ID 和 SELECT
我发现了一些类型推断的非直觉行为。因此,语义等效代码的工作方式不同,具体取决于编译器推断出的有关函数返回类型的信息。当您在最小单元测试中重现此案例时,或多或少会清楚发生了什么。但我担心在编写框架代码时
CREATE TABLE test ( sts_id int , [status1] int , [status2] int , [status3] int , [status4] int ) INS
我有以下声明: SELECT Dag AS Dag, CASE Jaar WHEN 2013 THEN Levering END AS '2013', CASE
我想做的是为所有高于平均时间、平均时间和低于平均时间的游乐设施获取平均tip_portion。所以返回3行。当我运行它时,它显示: ERROR: missing FROM-clause entry
我正在尝试设置一个包含以下字段的报告: 非常需要报告来显示日期、该日期内的总记录(因此我按日期分组),然后按小时计算 12 小时工作日(从上午 8 点到晚上 8 点)我需要计算记录在这些时间内出现的时
我有这个查询 SELECT users.name FROM users LEFT JOIN weapon_stats ON users.id = weapon_stats.zp_id WHERE we
我正在尝试按收视率等级获取不同视频的计数。我有下表: vid_id views 1 6 1 10 1 900 2 850 2 125000
假设我有一个如下所示的 SQL 语句: select supplier, case when platform in (5,6) then 'mobile' when p
我有一个表测试 TestNumber (int primary key) InactiveBitwise (int) 我执行以下命令: UPDATE tests SET CASE WH
我有一个像这样的表(name=expense): id amount date 1 -1687 2014-01-02 00:00:00.0 2 11000 2014-01-02 0
我有一个 multimap 定义 typedef std::pair au_pair; //vertices typedef std::pair acq_pair; //ch qlty specifi
我有一个有点像枚举的类,它的每个实例都有一个唯一的 int 值,该值从 0 开始并在每个新实例时递增。 class MyEnumLikeClass { static int NextId =
我是一名优秀的程序员,十分优秀!