machine-learning - 数据挖掘中的引导数据是什么？-6ren

machine-learning - 数据挖掘中的引导数据是什么？

转载作者：行者123 更新时间：2023-11-30 08:23:21

24

4

最近看到这个词，但实在不知道它指的是什么，在网上查了一下，但收效甚微。谢谢。

最佳答案

抽取您周六起床的时间样本。有些周五晚上你喝了太多酒，所以你很早就醒了(但又回去 sleep 了)。其他日子你会在正常时间醒来。其他日子你会睡懒觉。

结果如下:

[3.1、4.8、6.3、6.4、6.6、7.3、7.5、7.7、7.9、10.1]

您平均起床时间是几点？

现在是 6.8(点钟，即 6:48)。对我来说有点早。

对于您下周六何时醒来的预测有多准确？你能量化你可能犯的错误有多大吗？

这是一个相当小的样本，我们不确定底层过程的分布，因此使用标准参数统计技术可能不是一个好主意†。

为什么我们不随机抽取样本，计算平均值并重复此操作？这将使我们能够估计出我们的估计有多糟糕。

我这样做了好几次，平均值在 5.98 到 7.8 之间

这称为 Bootstrap ，由 Bradley Efron 于 1979 年首次提及。

一种变体称为“jackknife”，您可以在其中对除一个数据集之外的所有数据集进行采样，取平均值，然后重复。折刀平均值为 6.8(与算术平均值相同)，范围为 6.4 到 7.2。

另一种变体称为k 折交叉验证，其中您(随机)将数据集分成 k 个大小相等的部分，计算除一个部分之外的所有部分的平均值，然后重复 k次。 5 倍交叉验证平均值为 6.8，范围为 4 到 9。

† 这种分布确实是正态分布。均值的 95% 置信区间为 5.43 至 8.11，相当接近，但大于自举均值。

关于machine-learning - 数据挖掘中的引导数据是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3725279/

24

4

0

文章推荐： machine-learning - PySpark 中的 KMeans 聚类

文章推荐： Java - 使用 SSH 隧道连接到网页

文章推荐： java - Diffie Hellman 转 AES

python 数据挖掘
我不太关心数据挖掘，但我需要一些关于聚类的想法。让我先描述一下我的问题。我有大约 100 个包含用户评论的数据表。例如，我试图找到描述质量的词。一个人可以说这是惊人的质量，另一个人可以说质量很好，现
sql - 顺序模式 - 数据挖掘
我是数据挖掘的新手，如果这个问题对任何人来说都是显而易见的问题，我深表歉意。我知道有很多数据挖掘算法，例如顺序模式挖掘或先验算法。我想知道如果我有一个包含大约 20,000 名学生的数据库，我实现的以
algorithm - 如何从非实验数据(数据挖掘？)
我想从一个有很多变量的过程中获得最大的性能，其中很多变量是无法控制的。我无法进行数千次实验，所以如果我可以进行数百次实验就更好了改变许多可控参数收集许多表明性能的参数的数据对于那些我无法控制的
c# - 下载网页的一部分 - 数据挖掘
这基本上就是我正在做的。我从 en.wikipedia.org 中选择了一篇科学文章，并获得了已进行编辑的用户列表以及他们编辑该文章的次数。为了得到这个，我按照页面中的链接将我带到 toolserve
database - 大型数据库上的文本挖掘(数据挖掘)
我有一个大型的简历 (CV) 数据库，以及一个skills 表，用于对所有用户的技能进行分组。在该表中有一个字段 skill_text 以全文描述技能。我正在寻找一种算法/软件/方法来从该表中提取
sql-server - 数据挖掘 - 预测分析
我们正在考虑购买数据挖掘软件以主要运行预测分析过程。 SQL Server 数据挖掘解决方案与 IBM 的 SPSS 等其他解决方案相比如何？由于 SQL Server DM 包含在 SQL Ser
mysql - 数据挖掘、数据检索、分析和统计思路
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
javascript - PHP 服务器上的 HTML 数据挖掘
我使用 jQuery 创建了一个不错的库，它在浏览器中运行，基本上完成了从各种 html 页面中挖掘任意数据的任务。我想将此库迁移到运行 PHP 的 Apache 服务器并在服务器端运行它。但是，我不
python - Eurostat 的 pandas 数据挖掘
我正在开始一项工作，使用 python 和 pandas 分析来自 Eurostat 等统计机构的数据。我发现有两种方法可以从 Eurostat 获取数据。 pandas_datareader:貌似很
java - 什么是 Java 数据挖掘，JDM？
我在看 JDM。这仅仅是一个与其他进行实际数据挖掘的工具交互的 API 吗？或者这是一组包含实际数据挖掘算法的包？最佳答案啊，奇迹 the interweb : Java Data Mining
algorithm - 数据挖掘 : Apriori issue. Min-support
我编写了数据挖掘先验算法，它在小测试数据上运行良好，但在更大的数据集上运行它时遇到问题。我正在尝试生成经常一起购买的元素的规则。我的小测试数据是5个交易和10个产品。我的大测试数据是 1100
【机器学习入门与实践】数据挖掘-二手车价格交易预测（含EDA探索、特征工程、特征优化、模型融合等）
【机器学习入门与实践】数据挖掘-二手车价格交易预测（含EDA探索、特征工程、特征优化、模型融合等） note：项目链接以及码源见文末 1.赛题简介了解赛题赛题
machine-learning - 信息检索 (IR)、数据挖掘、机器学习 (ML)
人们经常使用 IR、ML 和数据挖掘等术语，但我注意到它们之间有很多重叠。对于在这些领域有经验的人来说，这之间的界限到底是什么？最佳答案这只是一个人(受过 ML 正式培训)的观点；其他人可能会以
java - 机器学习/数据挖掘/大数据 : Popular language for programming and community support
我不确定这个问题是否正确，但我要求解决我的疑问。对于机器学习/数据挖掘，我们需要了解数据，这意味着您需要学习Hadoop，它在Java中有实现> 用于 MapReduce(如果我错了请纠正我)。 H

首页

博学

6Ren·AI

商城

machine-learning - 数据挖掘中的引导数据是什么？