- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
pyspark mllib
和 pyspark ml
包有什么区别? :
https://spark.apache.org/docs/latest/api/python/pyspark.mllib.html
https://spark.apache.org/docs/latest/api/python/pyspark.ml.html
pyspark mllib
似乎是数据帧级别的目标算法 pyspark ml
我发现的一个区别是 pyspark ml
实现了 pyspark.ml.tuning.CrossValidator
而 pyspark mllib
没有。
我的理解是,如果在 Apache Spark 框架上实现算法是 mllib
但似乎存在拆分,则应该使用该库?
如果不转换类型,每个框架之间似乎没有互操作性,因为它们每个都包含不同的包结构。
最佳答案
根据我的经验,pyspark.mllib
类只能与 pyspark.RDD
一起使用,而(正如你提到的)pyspark.ml
类只能与 pyspark.sql.DataFrame
一起使用。 pyspark.ml
的文档中提到了支持这一点,pyspark.ml package
中的第一个条目状态:
DataFrame-based machine learning APIs to let users quickly assemble and configure practical machine learning pipelines.
现在我想起了我不久前读过的一篇文章,其中介绍了 Spark 2.0 中可用的三个 API、它们的相对优点/缺点以及它们的比较性能。 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets .我当时正在对新的客户端服务器进行性能测试,并且对是否存在值得开发基于 RDD 的方法而不是基于 DataFrame 的方法(我选择的方法)的场景感兴趣,但我离题。
要点是,在某些情况下,每种情况都非常适合,而在另一些情况下可能不适合。我记得的一个例子是,如果你的数据已经是结构化的,DataFrames 比 RDD 有一些性能优势,随着操作复杂性的增加,这显然是非常激烈的。另一个观察结果是,DataSet 和 DataFrame 在缓存时比 RDD 消耗的内存要少得多。总而言之,作者的结论是,对于低级操作,RDD 很棒,但对于高级操作,查看和绑定(bind)其他 API 的 DataFrames 和 DataSets 更胜一筹。
所以回到你的问题,我相信答案是响亮的 pyspark.ml
因为这个包中的类旨在利用 pyspark.sql.DataFrames
。我想,如果您要针对与 DataFrame 与 RDD 结构化的相同数据进行测试,那么在每个包中实现的复杂算法的性能将非常重要。此外,查看数据和开发引人入胜的视觉效果会更直观且性能更好。
关于python - `pyspark mllib` 与 `pyspark ml` 包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43240539/
如何将运算符传递给 ML 中的函数?例如,考虑这个伪代码: function (int a, int b, operator op) return a op b 这里,运算符可以是 op +
我尝试在 Google Cloud ML 上运行来自 github 的 word-RNN 模型。提交作业后,我在日志文件中收到错误。 这是我提交的训练内容 gcloud ml-engine jobs
在 a.ml 中定义了一个记录类型 t 并且也是透明地定义的 在 a.mli 中,即在 d 接口(interface)中,以便类型定义可用 到所有其他文件。 a.ml 还有一个函数 func,它返回一
关闭 ML.NET 模型生成器后,是否可以为创建的模型重新打开它? 我可以删除创建的模型并重新开始,但这并不理想。 最佳答案 不,不是真的。 AutoML/Model Builder 可以生成代码并将
我有一个关于训练可以预测名称是否为女性的 ML.NET 的问题。该模型可以使用这样的管道进行训练: var mlContext = new MLContext(); IDataView trainin
我在 ASP.NET Core 应用程序中使用 ML.NET,并在 Startup 中使用以下代码: var builder = services.AddPredictionEnginePool();
我使用 sklearn 创建了一个模型进行分类。当我调用函数 y_pred2 = clf.predict (features2) 时,它会返回一个包含我的预测的所有 id 的列表 y_pred2 =
我已向 cloud ml 提交了训练作业。但是,它找不到 csv 文件。它就在桶里。这是代码。 # Use scikit-learn to grid search the batch size and
我是 Azure Databricks 的新手,尽管我在 Databricks 方面有很好的经验,但仅限于 Data Engg 方面。我对 Databricks Runtime ML 和 ML Flo
为什么我尝试将经过训练的模型部署到 Google Cloud ML,却收到以下错误: Create Version failed.Model validation failed: Model meta
我是 Azure Databricks 的新手,尽管我在 Databricks 方面有很好的经验,但仅限于 Data Engg 方面。我对 Databricks Runtime ML 和 ML Flo
我是 Azure ML 新手。我有一些疑问。有人可以澄清下面列出的我的疑问吗? Azure ML 服务与 Azure ML 实验服务之间有什么区别。 Azure ML 工作台和 Azure ML St
我的 Cloud ML 训练作业已完成,输出如下: "consumedMLUnits": 43.24 我如何使用此信息来确定培训工作的成本?我无法在以下两个选项之间做出决定: 1)根据这个page ,
docs for setting up Google Cloud ML建议安装 Tensorflow 版本 r0.11。我观察到 r0.12 中新提供的 TensorFlow 函数在 Cloud ML
我正在关注一个来自 - https://spark.apache.org/docs/2.3.0/ml-classification-regression.html#multinomial-logist
我想使用 mosmlc 将我的 ML 程序编译成可执行二进制文件。但是,我找不到太多关于如何操作的信息。 我想编译的代码在这里http://people.pwf.cam.ac.uk/bt288/tic
假设我有两个 Azure ML 工作区: Workspace1 - 由一个团队(Team1)使用,该团队仅训练模型并将模型存储在 Workspace1 的模型注册表中 Workspace2 - 由另一
我尝试使用以下命令行在 Azure 上的 Linux(Ubuntu) 数据科学虚拟机上设置我的 Azure 机器学习环境: az ml 环境设置 但是,它显示错误为加载命令模块 ml 时出错。一直在谷
假设我有两个 Azure ML 工作区: Workspace1 - 由一个团队(Team1)使用,该团队仅训练模型并将模型存储在 Workspace1 的模型注册表中 Workspace2 - 由另一
我尝试使用以下命令行在 Azure 上的 Linux(Ubuntu) 数据科学虚拟机上设置我的 Azure 机器学习环境: az ml 环境设置 但是,它显示错误为加载命令模块 ml 时出错。一直在谷
我是一名优秀的程序员,十分优秀!