python - 将 StringIndexer 应用于 PySpark Dataframe 中的多个列-6ren

python - 将 StringIndexer 应用于 PySpark Dataframe 中的多个列

转载作者：IT老高更新时间：2023-10-28 22:07:58

31

4

我有一个 PySpark 数据框

+-------+--------------+----+----+
|address|          date|name|food|
+-------+--------------+----+----+
|1111111|20151122045510| Yin|gre |
|1111111|20151122045501| Yin|gre |
|1111111|20151122045500| Yln|gra |
|1111112|20151122065832| Yun|ddd |
|1111113|20160101003221| Yan|fdf |
|1111111|20160703045231| Yin|gre |
|1111114|20150419134543| Yin|fdf |
|1111115|20151123174302| Yen|ddd |
|2111115|      20123192| Yen|gre |
+-------+--------------+----+----+

我想转换为与 pyspark.ml 一起使用。我可以使用 StringIndexer 将名称列转换为数字类别:

indexer = StringIndexer(inputCol="name", outputCol="name_index").fit(df)
df_ind = indexer.transform(df)
df_ind.show()
+-------+--------------+----+----------+----+
|address|          date|name|name_index|food|
+-------+--------------+----+----------+----+
|1111111|20151122045510| Yin|       0.0|gre |
|1111111|20151122045501| Yin|       0.0|gre |
|1111111|20151122045500| Yln|       2.0|gra |
|1111112|20151122065832| Yun|       4.0|ddd |
|1111113|20160101003221| Yan|       3.0|fdf |
|1111111|20160703045231| Yin|       0.0|gre |
|1111114|20150419134543| Yin|       0.0|fdf |
|1111115|20151123174302| Yen|       1.0|ddd |
|2111115|      20123192| Yen|       1.0|gre |
+-------+--------------+----+----------+----+

如何使用 StringIndexer 转换几列(例如，name 和 food，每个都有自己的 StringIndexer)，然后使用 VectorAssembler生成特征向量？还是我必须为每一列创建一个 StringIndexer？

** 编辑**:这不是骗人的，因为我需要以编程方式对具有不同列名的多个数据框进行此操作。我不能使用 VectorIndexer 或 VectorAssembler 因为列不是数字的。

** EDIT 2**: 一个暂定的解决方案是

indexers = [StringIndexer(inputCol=column, outputCol=column+"_index").fit(df).transform(df) for column in df.columns ]

我现在创建一个包含三个数据框的列表，每个数据框都与原始数据框和转换后的列相同。现在我需要加入然后形成最终的数据帧，但这非常低效。

最佳答案

我发现最好的方法是将多个 StringIndex 组合到一个列表中，并使用 Pipeline 来执行它们:

from pyspark.ml import Pipeline
from pyspark.ml.feature import StringIndexer

indexers = [StringIndexer(inputCol=column, outputCol=column+"_index").fit(df) for column in list(set(df.columns)-set(['date'])) ]


pipeline = Pipeline(stages=indexers)
df_r = pipeline.fit(df).transform(df)

df_r.show()
+-------+--------------+----+----+----------+----------+-------------+
|address|          date|food|name|food_index|name_index|address_index|
+-------+--------------+----+----+----------+----------+-------------+
|1111111|20151122045510| gre| Yin|       0.0|       0.0|          0.0|
|1111111|20151122045501| gra| Yin|       2.0|       0.0|          0.0|
|1111111|20151122045500| gre| Yln|       0.0|       2.0|          0.0|
|1111112|20151122065832| gre| Yun|       0.0|       4.0|          3.0|
|1111113|20160101003221| gre| Yan|       0.0|       3.0|          1.0|
|1111111|20160703045231| gre| Yin|       0.0|       0.0|          0.0|
|1111114|20150419134543| gre| Yin|       0.0|       0.0|          5.0|
|1111115|20151123174302| ddd| Yen|       1.0|       1.0|          2.0|
|2111115|      20123192| ddd| Yen|       1.0|       1.0|          4.0|
+-------+--------------+----+----+----------+----------+-------------+

关于python - 将 StringIndexer 应用于 PySpark Dataframe 中的多个列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36942233/

31

4

0

文章推荐： javascript - 降级 react-native 的适当机制

文章推荐： c++ - 如何以一种不错的方式禁用 OpenMP 指令？

文章推荐： mysql - Sequelize : Destroy/Delete all records in the table

文章推荐： c++ - 制表符(\t)有多少个空格？

java - Spark StringIndexer 返回空数据集
Apache Spark StringIndexerModel 在对某一特定列进行转换后返回空数据集。我正在使用成人数据集:http://mlr.cs.umass.edu/ml/datasets/Ad
java - Spark : StringIndexer on sentences
我正在尝试对一列句子执行 StringIndexer 操作，即将单词列表转换为整数列表。例如: 输入数据集: (1, ["I", "like", "Spark"]) (2, ["I", "h
javascript - stringindexer 在本地工作，但在托管站点时不起作用
我的 java 脚本有以下问题。我有jQuery对象。在本地获取其值的第 i 个符号，我使用以下代码 $(this).val()[i]; 当我在服务器中部署此代码时，此行开始抛出异常，表示 $(th
python - PySpark 在嵌套数组中反转 StringIndexer
我正在使用 PySpark 通过 ALS 进行协同过滤。我的原始用户和项目 ID 是字符串，所以我使用了 StringIndexer将它们转换为数字索引(PySpark 的 ALS 模型要求我们这样做
python - Spark MLlib 中的 StringIndexer
我的 PipelinedRDD 中有一列标称值，我希望将其转换为索引编码以用于分类目的。我曾经在pyspark.ml中使用StringIndexer，它非常容易使用。不过，这次我正在学习如何处理 r
python - PySpark 无法访问使用 StringIndexer 添加的列
PySpark - v2.4.0 我尝试将 String 列 Country 转换为 Interger 列 Country_ID，结果看起来不错。但是当我尝试访问 Country_ID 列时，我得到了
apache-spark - 什么是 StringIndexer 、 VectorIndexer 以及如何使用它们？
Dataset dataFrame = ... ; StringIndexerModel labelIndexer = new StringIndexer() .se
apache-spark - 在大型记录上，Spark StringIndexer.fit非常慢
我有格式化为以下示例的大数据记录: // +---+------+------+ // |cid|itemId|bought| // +---+------+------+ // |abc| 12
string - 为什么 Julia 给我 StringIndex 错误？
我收到了 StringIndex我正在处理的 10,000 个字符串中的一个特定字符串的错误。我真的不知道这个字符串有什么问题。我想这可能是一个特殊的性格问题。如果我 println然后将该字符串分
apache-spark - Spark，ML，StringIndexer:处理看不见的标签
我的目标是建立一个multicalss分类器。我已经建立了用于特征提取的管道，并且第一步包括StringIndexer转换器，将每个类名称映射到标签，该标签将在分类器训练步骤中使用。管道已安装培训
scala - 检索 Spark Mllib StringIndexer 列映射
如何从经过训练的 Spark MLlib StringIndexerModel 中获取映射？ val stringIndexer = new StringIndexer() .setInput
python - 使用来自 StringIndexer 的标签进行 IndexToString 转换
如何通过从 labelIndexer 获取标签，使用 IndexToString 进行转换？ labelIndexer = StringIndexer(inputCol="shutdown_reaso
scala - 在 Spark StringIndexer 中处理 NULL 值
我有一个包含一些分类字符串列的数据集，我想用 double 类型表示它们。我使用 StringIndexer 进行此转换并且它有效，但是当我在另一个具有 NULL 值的数据集中尝试它时，它给出了 ja
apache-spark - Spark (OneHotEncoder + StringIndexer) = FeatureImportance 如何？
当我使用 StringIndexer 和 OneHot Encoder 为我的矩阵准备数据时，我现在如何知道重要特征的名称/来源是什么？ randomForest 分类器只会给我索引，我看不到原始数据
apache-spark - Spark ML StringIndexer 不同标签训练/测试
我正在使用 Scala 并使用 StringIndexer 为训练集中的每个类别分配索引。它根据每个类别的频率分配索引。问题是在我的测试数据中，类别的频率不同，因此 StringIndexer 为类
python - 从 Spark (pyspark) 管道内的 StringIndexer 阶段获取标签
我正在使用 Spark 和 pyspark 并且我有一个 pipeline 设置了一堆 StringIndexer 对象，我用它来将字符串列编码为索引列: indexers = [StringInde
python - 将 StringIndexer 应用于 PySpark Dataframe 中的多个列
我有一个 PySpark 数据框 +-------+--------------+----+----+ |address| date|name|food| +-------+----
apache-spark - 在 Spark ML 中，为什么在具有数百万个不同值的列上安装 StringIndexer 会产生 OOM 错误？
我正在尝试在具有大约 15.000.000 个唯一字符串值的列上使用 Spark 的 StringIndexer 特征转换器。无论我投入多少资源，Spark 总是会因某种内存不足异常而死在我身上。 f

首页

博学

6Ren·AI

商城

python - 将 StringIndexer 应用于 PySpark Dataframe 中的多个列