apache-spark - 仅将 Spark ML 管道用于转换-6ren

apache-spark - 仅将 Spark ML 管道用于转换

转载作者：行者123 更新时间：2023-12-04 17:47:27

25

4

我正在从事一个项目，其中可配置管道和对 Spark DataFrames 变更的沿袭跟踪都是必不可少的。该管道的端点通常只是修改后的数据帧(将其视为 ETL 任务)。对我来说最有意义的是利用现有的 Spark ML Pipeline API 来跟踪这些更改。特别是，更改(根据其他列添加列等)是作为自定义 Spark ML 转换器实现的。

但是，我们现在正在内部讨论这是否是实现此管道的最惯用方式。另一种选择是将这些转换实现为一系列 UDF，并基于 DataFrame 的模式历史(或 Spark 的内部 DF 沿袭跟踪)构建我们自己的沿袭跟踪。这方面的论点是 Spark 的 ML 管道不仅仅是 ETL 作业，而且应该始终以生成可以馈送到 Spark ML Evaluator 的列为目标来实现。反对这一方面的论点是，它需要大量工作来反射(reflect)已经存在的功能。

将 Spark 的 ML Pipelines 严格用于 ETL 任务有什么问题吗？仅使用 Transformers 且不包括 Evaluator 的任务？

最佳答案

对我来说，这似乎是个好主意，特别是如果您可以将生成的不同管道组合成新的管道，因为管道本身可以由不同的管道组成，因为管道从 PipelineStage 向上延伸到树(来源:https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.Pipeline) .

但请记住，您可能会按照此处 (https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-mllib/spark-mllib-transformers.html) 的说明在幕后做同样的事情:

Internally, transform method uses Spark SQL’s udf to define a function (based on createTransformFunc function described above) that will create the new output column (with appropriate outputDataType). The UDF is later applied to the input column of the input DataFrame and the result becomes the output column (using DataFrame.withColumn method).

如果您决定采用其他方法或找到更好的方法，请发表评论。很高兴分享有关 Spark 的知识。

关于apache-spark - 仅将 Spark ML 管道用于转换，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47820188/

25

4

0

文章推荐： ASP.NET Web API 2 相同的路由名称不同的 POST 模型类型

文章推荐： Angular 5 - 不执行构造函数和 ngOnInit

文章推荐： spring - MultiTenantSpringLiquibase 示例。

文章推荐： python - 在哪里可以找到 box python SDK 的 jwt_key_id

internet-explorer - 仅 Windows 7，仅 IE，认为我的网站证书有问题？
我仅在 WIN7 PC 上收到此通知，仅使用 IE。 Firefox 总是很好，旧版 Windows 上的 IE 似乎也不错。这让我大吃一惊，我不知道为什么 IE 认为 SSL 证书有问题。有没有人以
wix - 升级期间未复制文件(仅)
概述对于我产品的新版本 v1.9.0，我创建了一个新的 MSI 安装程序。该应用程序的先前版本是 v1.7.0。卸载旧版本然后安装新版本工作正常。但是当我尝试使用 v1.9.0 安装程序更新旧版
仅 JavaScript 按钮按下时平滑滚动
该网站有一个全高图像启动。更多内容位于首屏下方，图像底部有一个“滚动”元素，以提示用户发现其余内容。单击后，我成功地使网站向下滚动 300 像素。然而，我想顺利地做到这一点。这是我当前的代码: w
javascript - 动态创建类名。仅
var i = 0; function Myfunc() { var newdiv = document.createElement('div'); var el = document
仅 JavaScript 图像悬停
这纯粹是为了学习目的；我知道 CSS 将是这种情况下的首选方法。我知道在 JavaScript 中，您可以使用内联事件处理将鼠标悬停在图像上，如下所示: 我知道您可以在您的站点中安装 jQuery
仅 curl 发布数据和标题
我只想从curl请求中获取 header curl -I www.google.com 一切都很棒。现在我想这样做，但也传递发布数据: curl -I -d'test=test' www.google
javascript - 仅 getElementsByName？
以下代码旨在更改一个字段的颜色: Untitled Document var bkColor =
仅 Grep 第一个匹配项并停止
我正在使用 grep 递归搜索目录，并使用以下参数希望只返回第一个匹配项。不幸的是，它返回了不止一个——事实上，我上次查看时返回了两个。似乎我有太多的争论，尤其是没有得到想要的结果。 :-/ # gr
仅 grep 当前目录
我只想搜索当前目录中的所有文件。我试过这个 grep foo * 但我收到此错误 grep: bar: Is a directory 我也尝试过这个 grep -r foo 但这也在搜索子目录。最佳
JavaFx如何打印文本(仅)收据？
我正在构建一个销售点应用程序，我想打印一张收据。问题是我使用的打印机无法打印纯文本的任何图形，我在 javafx 中只能找到使用 Print API 打印节点或使用像 jasper 这样都包含图形的报
仅 Java 操作系统
是否有任何操作系统在完全加载时仅提供用于控制台应用程序执行的 java 环境？理想情况下，它会在加载时自动启动程序最佳答案这是一个名称为:JavaOS 的东西从我的角度来看，更好的方法是安装一个
仅 MySQL 转储还原增量
在工作中，我们有一个每晚执行 mysql 数据转储的脚本。对于开发，我们通常需要使用来自最近转储的数据。一段时间以来，我们一直每天都进行数据库还原，但现在我们已经到了每天还原花费近一个小时的地步。有没
javascript - 需要禁用下拉菜单的淡出功能(仅)
我的移动模式菜单有问题。 onClick 它淡出。我想保留此设置，但我不希望它在单击下拉部分时淡出。这是链接:http://jsfiddle.net/zLLzrs6b/3/感谢您的帮助! html:
仅 css 在屏幕尺寸变化时调整图像大小的灵活布局
经过大量研究和反复试验，我谦虚地向各位 CSS 专家寻求帮助。这就是我需要的: 我有两张图片:titlelogo 和 newlogo。在全屏模式下，newlogo 需要在左边，titlelogo 在
javascript - 选择具有特定属性的标签(仅)
这个问题在这里已经有了答案: Exclusive CSS selector (3 个答案) 关闭 3 年前。我的文档结构如下: ... ... something something someth
html - 强制可变宽度表格列内容以最大宽度换行*仅*
我有一个具有以下要求的表: 所有列的宽度必须可变所有列的宽度不得超过必要的宽度所有单元格必须保留空白(white-space:pre/pre-wrap) 当(且仅当)超过最大定义宽度 (1000p
c++ - 具有特殊字符的数字的正则表达式**仅**
我正在寻找一个正则表达式来仅匹配具有特殊字符且大小为4+ 的数字字符串。我对此处发布的问题做了一些评论: 测试网站: http://regexlib.com/RETester.aspx 1- re
仅 CSS 灯箱解决方案
我正在为我的元素开发一个纯 CSS 灯箱解决方案。我用谷歌搜索了它，但到目前为止只找到了部分解决方案。我正在寻找这些功能: 显示任意宽任意高的内容(无固定高/宽) 垂直居中和水平居中如果内容宽度和
仅 CSS 网格布局
出于各种原因，我目前正在尝试使用 HTML/CSS 创建网格布局(我知道 Bootstrap 等，但在这种情况下没有选择，而且我无法添加标记元素)。我有以下代码(容器 div，每次都有一个带有 ul
仅 Java 字符串格式小数
有没有办法使用String.format()格式化 double 以仅获取小数？ System.out.println(String.format("%.2f", 1.23456d)); 正如预期的那

首页

博学

6Ren·AI

商城

apache-spark - 仅将 Spark ML 管道用于转换