python - 在 PySpark ML 中创建自定义 Transformer-6ren

python - 在 PySpark ML 中创建自定义 Transformer

转载作者：IT老高更新时间：2023-10-28 21:18:34

25

4

我是 Spark SQL DataFrames 和 ML 的新手 (PySpark)。如何创建自定义标记器，例如删除停用词并使用 nltk 中的一些库?我可以扩展默认的吗？

最佳答案

Can I extend the default one?

不是真的。默认 Tokenizer 是 pyspark.ml.wrapper.JavaTransformer 的子类，并且与来自 pyspark.ml.feature 的其他转换器和估计器相同，代表对其 Scala 对应物的实际处理。既然你想使用 Python，你应该直接扩展 pyspark.ml.pipeline.Transformer。

import nltk

from pyspark import keyword_only  ## < 2.0 -> pyspark.ml.util.keyword_only
from pyspark.ml import Transformer
from pyspark.ml.param.shared import HasInputCol, HasOutputCol, Param, Params, TypeConverters
# Available in PySpark >= 2.3.0 
from pyspark.ml.util import DefaultParamsReadable, DefaultParamsWritable  
from pyspark.sql.functions import udf
from pyspark.sql.types import ArrayType, StringType

class NLTKWordPunctTokenizer(
        Transformer, HasInputCol, HasOutputCol,
        # Credits https://stackoverflow.com/a/52467470
        # by https://stackoverflow.com/users/234944/benjamin-manns
        DefaultParamsReadable, DefaultParamsWritable):

    stopwords = Param(Params._dummy(), "stopwords", "stopwords",
                      typeConverter=TypeConverters.toListString)


    @keyword_only
    def __init__(self, inputCol=None, outputCol=None, stopwords=None):
        super(NLTKWordPunctTokenizer, self).__init__()
        self.stopwords = Param(self, "stopwords", "")
        self._setDefault(stopwords=[])
        kwargs = self._input_kwargs
        self.setParams(**kwargs)

    @keyword_only
    def setParams(self, inputCol=None, outputCol=None, stopwords=None):
        kwargs = self._input_kwargs
        return self._set(**kwargs)

    def setStopwords(self, value):
        return self._set(stopwords=list(value))

    def getStopwords(self):
        return self.getOrDefault(self.stopwords)

    # Required in Spark >= 3.0
    def setInputCol(self, value):
        """
        Sets the value of :py:attr:`inputCol`.
        """
        return self._set(inputCol=value)

    # Required in Spark >= 3.0
    def setOutputCol(self, value):
        """
        Sets the value of :py:attr:`outputCol`.
        """
        return self._set(outputCol=value)

    def _transform(self, dataset):
        stopwords = set(self.getStopwords())

        def f(s):
            tokens = nltk.tokenize.wordpunct_tokenize(s)
            return [t for t in tokens if t.lower() not in stopwords]

        t = ArrayType(StringType())
        out_col = self.getOutputCol()
        in_col = dataset[self.getInputCol()]
        return dataset.withColumn(out_col, udf(f, t)(in_col))

使用示例(来自 ML - Features 的数据):

sentenceDataFrame = spark.createDataFrame([
  (0, "Hi I heard about Spark"),
  (0, "I wish Java could use case classes"),
  (1, "Logistic regression models are neat")
], ["label", "sentence"])

tokenizer = NLTKWordPunctTokenizer(
    inputCol="sentence", outputCol="words",  
    stopwords=nltk.corpus.stopwords.words('english'))

tokenizer.transform(sentenceDataFrame).show()

对于自定义 Python Estimator，请参阅 How to Roll a Custom Estimator in PySpark mllib

⚠ 此答案取决于内部 API，并且与 Spark 2.0.3、2.1.1、2.2.0 或更高版本 (SPARK-19348) 兼容。有关与以前 Spark 版本兼容的代码，请参阅 revision 8 .

关于python - 在 PySpark ML 中创建自定义 Transformer，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32331848/

25

4

0

文章推荐： python - 使用棉花糖中的数据更新行 (SQLAlchemy)

文章推荐： java - javaee-api 和 javaee-web-api 有什么区别？

文章推荐： java - 如何在 JPA/Hibernate 中使用 @Id 和字符串类型？

ml - 将运算符传递给 ML 中的函数
如何将运算符传递给 ML 中的函数？例如，考虑这个伪代码: function (int a, int b, operator op) return a op b 这里，运算符可以是 op +
google-cloud-ml - 在谷歌云 ML 中运行作业后出错
我尝试在 Google Cloud ML 上运行来自 github 的 word-RNN 模型。提交作业后，我在日志文件中收到错误。这是我提交的训练内容 gcloud ml-engine jobs
ocaml - 如何在另一个 .ml 文件中访问一个 .ml 文件中定义的类型
在 a.ml 中定义了一个记录类型 t 并且也是透明地定义的在 a.mli 中，即在 d 接口(interface)中，以便类型定义可用到所有其他文件。 a.ml 还有一个函数 func，它返回一
ml.net - 有没有办法重新打开 ML.NET 模型生成器？
关闭 ML.NET 模型生成器后，是否可以为创建的模型重新打开它？我可以删除创建的模型并重新开始，但这并不理想。最佳答案不，不是真的。 AutoML/Model Builder 可以生成代码并将
ml.net - 使用 ML.NET 训练模型时在空字符串上使用占位符
我有一个关于训练可以预测名称是否为女性的 ML.NET 的问题。该模型可以使用这样的管道进行训练: var mlContext = new MLContext(); IDataView trainin
ml.net - 如何在中间件(ML.NET)中将模型添加到PredictionEnginePool？
我在 ASP.NET Core 应用程序中使用 ML.NET，并在 Startup 中使用以下代码: var builder = services.AddPredictionEnginePool();
Python ML - 如何最好地拯救 python ml 值数组
我使用 sklearn 创建了一个模型进行分类。当我调用函数 y_pred2 = clf.predict (features2) 时，它会返回一个包含我的预测的所有 id 的列表 y_pred2 =
google-cloud-ml - Cloud-ML 作业没有这样的文件或目录
我已向 cloud ml 提交了训练作业。但是，它找不到 csv 文件。它就在桶里。这是代码。 # Use scikit-learn to grid search the batch size and
azure - Databricks 运行时 ML 和 ML 流程之间的区别
我是 Azure Databricks 的新手，尽管我在 Databricks 方面有很好的经验，但仅限于 Data Engg 方面。我对 Databricks Runtime ML 和 ML Flo
google-cloud-ml - 无法部署 Cloud ML 模型
为什么我尝试将经过训练的模型部署到 Google Cloud ML，却收到以下错误: Create Version failed.Model validation failed: Model meta
azure - Databricks 运行时 ML 和 ML 流程之间的区别
我是 Azure Databricks 的新手，尽管我在 Databricks 方面有很好的经验，但仅限于 Data Engg 方面。我对 Databricks Runtime ML 和 ML Flo
azure - Azure ML 和 Azure ML 实验之间的区别
我是 Azure ML 新手。我有一些疑问。有人可以澄清下面列出的我的疑问吗？ Azure ML 服务与 Azure ML 实验服务之间有什么区别。 Azure ML 工作台和 Azure ML St
google-cloud-ml-engine - 如何计算 Cloud ML 作业的成本？
我的 Cloud ML 训练作业已完成，输出如下: "consumedMLUnits": 43.24 我如何使用此信息来确定培训工作的成本？我无法在以下两个选项之间做出决定: 1)根据这个page ，
google-cloud-ml - Google Cloud ML Tensorflow 版本
docs for setting up Google Cloud ML建议安装 Tensorflow 版本 r0.11。我观察到 r0.12 中新提供的 TensorFlow 函数在 Cloud ML
apache-spark-ml - 如何从 Spark ML Logistic 回归模型中获取模型摘要？
我正在关注一个来自 - https://spark.apache.org/docs/2.3.0/ml-classification-regression.html#multinomial-logist
sml - 标准 ML : how to compile a ML program using mosmlc?
我想使用 mosmlc 将我的 ML 程序编译成可执行二进制文件。但是，我找不到太多关于如何操作的信息。我想编译的代码在这里http://people.pwf.cam.ac.uk/bt288/tic
azure - 从另一个 Azure ML 工作区访问 Azure ML 模型注册表
假设我有两个 Azure ML 工作区: Workspace1 - 由一个团队(Team1)使用，该团队仅训练模型并将模型存储在 Workspace1 的模型注册表中 Workspace2 - 由另一
azure - 设置 azure ml 时加载命令模块 azure ml 时出错
我尝试使用以下命令行在 Azure 上的 Linux(Ubuntu) 数据科学虚拟机上设置我的 Azure 机器学习环境: az ml 环境设置但是，它显示错误为加载命令模块 ml 时出错。一直在谷
azure - 从另一个 Azure ML 工作区访问 Azure ML 模型注册表
假设我有两个 Azure ML 工作区: Workspace1 - 由一个团队(Team1)使用，该团队仅训练模型并将模型存储在 Workspace1 的模型注册表中 Workspace2 - 由另一
azure - 设置 azure ml 时加载命令模块 azure ml 时出错
我尝试使用以下命令行在 Azure 上的 Linux(Ubuntu) 数据科学虚拟机上设置我的 Azure 机器学习环境: az ml 环境设置但是，它显示错误为加载命令模块 ml 时出错。一直在谷

首页

博学

6Ren·AI

商城

python - 在 PySpark ML 中创建自定义 Transformer