scala - 出于机器学习目的，使用 "randomSplit"理解在 Scala 中拆分数据的问题-6ren

scala - 出于机器学习目的，使用 "randomSplit"理解在 Scala 中拆分数据的问题

转载作者：行者123 更新时间：2023-12-04 18:06:52

32

4

嗨，我是 MLlib 的新手，我正在阅读 Spark 网站上有关它的文档。我很难理解为什么在下面的代码中我们需要缓存“0”用于训练和“1”用于测试:

  val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L)
  val training = splits(0).cache()
  val test = splits(1)

任何人都可以帮助我理解原因吗？据我所知，我们需要正负样本，所以“1”可以为正，“0”可以为负，为什么要这样划分？

谢谢!

最佳答案

这与正例和反例无关。这些应该已经存在于数据集中(两种类型)。

您将数据随机拆分以生成两组:一组在 ML 算法训练期间使用(训练集)，第二组用于检查训练是否有效(测试集)。这被广泛使用并且是一个非常好的主意，因为它捕获了过度拟合，否则会使您看起来像拥有一个很棒的 ML 解决方案，而实际上它实际上只是有效地记住了每个数据点的答案并且无法进行插值或概括。

事实上，我会建议，如果您将合理数量的数据拆分为三个数据集，那么您可以在其上运行 ML 算法的“训练”； “测试”，您可以用它来检查您的训练进行得如何；和“验证”，直到您认为您的整个 ML 过程已优化，您才可以使用。 (优化可能需要多次使用测试集，例如检查收敛性，这使其在某种程度上适合数据集，因此通常很难确定您是否真的避免了过度拟合。将验证集保留到最后是最好的检查方法(或者，如果您可以收集新数据，则可以改为这样做)。

请注意，拆分是随机的，以避免不同数据集包含统计上不同的数据的问题；例如早期数据可能与晚期数据不同，因此取数据集的前半部分和后半部分可能会导致问题。

关于scala - 出于机器学习目的，使用 "randomSplit"理解在 Scala 中拆分数据的问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24857650/

32

4

0

文章推荐： position - 如何使用gdk_device_get_position()？

文章推荐： three.js - 如何使用 threejs 为对象应用平面着色

文章推荐： php - WordPress - 按日期获取帖子

OAuth2 `expires_in` 目的
我正致力于通过 OAuth 合并外部 API，但对 expires_in 属性的用途有点迷惑。通过阅读，应该对 api token 的使用进行防御性编码，因为您应该预料到 token 在任何时候都可能
spring - Spring中bean的用途/目的
有人可以概述或总结一下 Spring 框架上下文中 bean 的用途吗？我了解标准的 Java bean(没有 arg 构造函数、getter/setter，通常是序列化的)，但 Spring be
opengl - OpenGL程序管道对象的正确用法/目的
使用 OpenGL 4.1 和 ARB_separate_shader_objects，我们能够在着色器程序中存储着色管道的不同阶段。众所周知，要使用这些，我们需要将它们附加到程序管道对象，然后绑定(
optaplanner - MoveIteratorFactory 目的
正如我从文档中了解到的那样，“MoveIteratorFactory”的目的是生成每一步都需要执行的 Action 。 “getSize”方法的移动子集有多大？ “createOriginalMove
cmake - InstallRequiredSystemLibraries 目的
请解释 CMakeLists.txt 中这一行的目的是什么: 包括(InstallRequiredSystemLibraries) 我在 CMake 示例中看到这一行，但找不到好的解释，为什么我需要它
android - 多个布局中的一个过程/目的
这里是新手。我仍在尝试理解在多个布局中运行单个进程或目的的概念。例如，我想在我的申请中添加“提交后”功能。有一个包含标题、内容等文本框的主布局，以及一个链接到另一个布局以选择类别的按钮。我的问题是，
ios - willSendRequestForAuthenticationChallenge 目的
我在看 Box Oauth2.0 View Controller : https://github.com/box/box-ios-sdk-v2/blob/master/BoxSDK/OAuth2/B
Java clipboardOwner 目的？
我编写了一个将字符串复制到系统剪贴板的 Java 应用程序。构造函数使用 Clipboard.setContents(Transferable contents, ClipboardOwner own
c# - 命令模式 - 目的？
阅读此文后:http://sourcemaking.com/design_patterns/command 我还是不太明白为什么我们需要这个。最佳答案想法是，如果命令被封装为对象，那么这些命令可以
c++ - 专业模板 - 目的
我知道 c++ 中的模板是做什么的，但是今天我看到了一些奇怪的代码: template <> void swap(foo &a, foo &b) { a.name = b.name; a.
c# - IEnumerator 目的
我不太明白 C# Collections 中 IEnumerator 的用途是什么。它的用途是什么，为什么要使用它？我试着在线查看 http://msdn.microsoft.com/en-us/l
c - #line - 目的？
不幸的是，我今天做了一些代码考古(同时重构了一些旧的危险代码)并发现了这样的小化石: # line 7 "foo.y" 能在里面找到如此古老的宝藏，我完全惊呆了。我在 C 编程的网站上阅读了它。然而，
java - Hibernate @UniqueConstraint 目的
您能否澄清一下此注释的实际用途？ - 如果我们没有使用数据库中的 SQL 表定义定义相应的约束，会发生什么情况。当我们尝试插入时，hibernate 会检查唯一性吗？或者这就是DB的目的吗？如果 hi
javascript - join ("") 在只有一个元素的字符串数组上调用。目的？
我在视频教程中看到过这段代码: const navToggle = ["Menu"].join(""); $(".site-header").prepend(navToggle); 我明白它的基本作用
c++ - Gtkmm scroll_to() 目的
我想知道这个成员函数的 scroll_to(TextBuffer::iterator& iter, double within_margin = 0)参数 within_margin。 API 是这样
search - 是否可以将子目录提交到目录以用于 seo 目的？
我想知道是否可以将子目录提交到目录例如，假设您有 site.com/directory 可以将子目录提交到目录。我即将开始为希望她的网站在搜索引擎中排名靠前的客户进行一些搜索引擎优化。我知道实现此目的
c++ - STL 迭代器 - 目的
STL 迭代器的用途是什么？为什么程序员要创造这个概念？最佳答案迭代器允许您将算法与容器分开。只要您有开始和结束迭代器，并且知道迭代器的功能(随机访问等)，您就可以在迭代器指定的范围内进行操作。例
objective-c - NSUTF8StringEncoding 目的
NSData *responseData = [NSURLConnection sendSynchronousRequest:theRequest returningResponse:&respons
linux - I2C_SLAVE ioctl 目的
我正在编写代码，使用通用的 linux i2c 驱动程序 linux/i2c-dev.h 实现一个简单的 i2c 读/写功能我对 ioctl 感到困惑:I2C_SLAVE 内核文档说明如下: You
Scala collection.mutable.Cloneable 目的
在尝试克隆可变集合时，我最初的方法是对 mutable.Cloneable 特征使用 clone() 方法。但是，这取决于创建引用副本的 java.Object.clone 实现，而不是深拷贝。通过测

首页

博学

6Ren·AI

商城

scala - 出于机器学习目的，使用 "randomSplit"理解在 Scala 中拆分数据的问题