- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
最近看到这个词,但实在不知道它指的是什么,在网上查了一下,但收效甚微。谢谢。
最佳答案
抽取您周六起床的时间样本。有些周五晚上你喝了太多酒,所以你很早就醒了(但又回去 sleep 了)。其他日子你会在正常时间醒来。其他日子你会睡懒觉。
结果如下:
[3.1、4.8、6.3、6.4、6.6、7.3、7.5、7.7、7.9、10.1]
您平均起床时间是几点?
现在是 6.8(点钟,即 6:48)。对我来说有点早。
对于您下周六何时醒来的预测有多准确?你能量化你可能犯的错误有多大吗?
这是一个相当小的样本,我们不确定底层过程的分布,因此使用标准参数统计技术可能不是一个好主意†。
为什么我们不随机抽取样本,计算平均值并重复此操作?这将使我们能够估计出我们的估计有多糟糕。
我这样做了好几次,平均值在 5.98 到 7.8 之间
这称为 Bootstrap ,由 Bradley Efron 于 1979 年首次提及。
一种变体称为“jackknife”,您可以在其中对除一个数据集之外的所有数据集进行采样,取平均值,然后重复。折刀平均值为 6.8(与算术平均值相同),范围为 6.4 到 7.2。
另一种变体称为k 折交叉验证,其中您(随机)将数据集分成 k 个大小相等的部分,计算除一个部分之外的所有部分的平均值,然后重复 k次。 5 倍交叉验证平均值为 6.8,范围为 4 到 9。
† 这种分布确实是正态分布。均值的 95% 置信区间为 5.43 至 8.11,相当接近,但大于自举均值。
关于machine-learning - 数据挖掘中的引导数据是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3725279/
我不太关心数据挖掘,但我需要一些关于聚类的想法。让我先描述一下我的问题。 我有大约 100 个包含用户评论的数据表。例如,我试图找到描述质量的词。一个人可以说这是惊人的质量,另一个人可以说质量很好,现
我是数据挖掘的新手,如果这个问题对任何人来说都是显而易见的问题,我深表歉意。我知道有很多数据挖掘算法,例如顺序模式挖掘或先验算法。我想知道如果我有一个包含大约 20,000 名学生的数据库,我实现的以
我想从一个有很多变量的过程中获得最大的性能,其中很多变量是无法控制的。 我无法进行数千次实验,所以如果我可以进行数百次实验就更好了 改变许多可控参数 收集许多表明性能的参数的数据 对于那些我无法控制的
这基本上就是我正在做的。我从 en.wikipedia.org 中选择了一篇科学文章,并获得了已进行编辑的用户列表以及他们编辑该文章的次数。为了得到这个,我按照页面中的链接将我带到 toolserve
我有一个大型的简历 (CV) 数据库,以及一个skills 表,用于对所有用户的技能进行分组。 在该表中有一个字段 skill_text 以全文描述技能。 我正在寻找一种算法/软件/方法来从该表中提取
我们正在考虑购买数据挖掘软件以主要运行预测分析过程。 SQL Server 数据挖掘解决方案与 IBM 的 SPSS 等其他解决方案相比如何? 由于 SQL Server DM 包含在 SQL Ser
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我使用 jQuery 创建了一个不错的库,它在浏览器中运行,基本上完成了从各种 html 页面中挖掘任意数据的任务。我想将此库迁移到运行 PHP 的 Apache 服务器并在服务器端运行它。但是,我不
我正在开始一项工作,使用 python 和 pandas 分析来自 Eurostat 等统计机构的数据。我发现有两种方法可以从 Eurostat 获取数据。 pandas_datareader:貌似很
我在看 JDM。这仅仅是一个与其他进行实际数据挖掘的工具交互的 API 吗?或者这是一组包含实际数据挖掘算法的包? 最佳答案 啊,奇迹 the interweb : Java Data Mining
我编写了数据挖掘先验算法,它在小测试数据上运行良好,但在更大的数据集上运行它时遇到问题。 我正在尝试生成经常一起购买的元素的规则。 我的小测试数据是5个交易和10个产品。 我的大测试数据是 1100
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等) note:项目链接以及码源见文末 1.赛题简介 了解赛题 赛题
人们经常使用 IR、ML 和数据挖掘等术语,但我注意到它们之间有很多重叠。 对于在这些领域有经验的人来说,这之间的界限到底是什么? 最佳答案 这只是一个人(受过 ML 正式培训)的观点;其他人可能会以
我不确定这个问题是否正确,但我要求解决我的疑问。 对于机器学习/数据挖掘,我们需要了解数据,这意味着您需要学习Hadoop,它在Java中有实现> 用于 MapReduce(如果我错了请纠正我)。 H
我是一名优秀的程序员,十分优秀!