gpt4 book ai didi

apache-spark - 将 spark 特征转换管道导出到文件

转载 作者:行者123 更新时间:2023-12-05 08:07:48 27 4
gpt4 key购买 nike

PMML、Mleap、PFA 目前只支持基于行的转换。它们都不支持基于框架的转换,如聚合、groupby 或连接。导出包含这些操作的 Spark 管道的推荐方法是什么。

最佳答案

我看到 2 个选项 wrt Mleap:

1) 实现基于数据框的转换器和 SQLTransformer-Mleap 等价物。该解决方案在概念上似乎是最好的(因为您始终可以将此类转换封装在管道元素中),但还有很多工作要做。参见 https://github.com/combust/mleap/issues/126

2) 使用相应的操作扩展 DefaultMleapFrame,您要执行然后将所需的操作实际应用到在修改后的 MleapServing 子项目中传递给 restserver 的数据.

我实际上选择了 2) 并将 implodeexplodejoin 作为方法添加到 DefaultMleapFrame 和还有一个允许快速连接的 HashIndexedMleapFrame。我没有实现 groupbyagg,但在 Scala 中这相对容易实现。

关于apache-spark - 将 spark 特征转换管道导出到文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53380005/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com