scikit-learn - featureUnion 与 columnTransformer？-6ren

scikit-learn - featureUnion 与 columnTransformer？

转载作者：行者123 更新时间：2023-12-01 07:50:21

25

4

sklearn 中的 FeatureUnion() 和 ColumnTransformer() 有什么区别？

如果我想构建一个包含混合数据类型(分类、数字、非结构化文本)的特征的监督模型，我应该使用哪个我需要组合单独的管道？

来源:https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.FeatureUnion.html

来源:https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html

最佳答案

根据 sklearn 文档:

FeatureUnion: Concatenates results of multiple transformer objects. This estimator applies a list of transformer objects in parallel to the input data, then concatenates the results. This is useful to combine several feature extraction mechanisms into a single transformer.

ColumnTransformer: Applies transformers to columns of an array or pandas DataFrame. This estimator allows different columns or column subsets of the input to be transformed separately and the features generated by each transformer will be concatenated to form a single feature space. This is useful for heterogeneous or columnar data, to combine several feature extraction mechanisms or transformations into a single transformer.

因此，FeatureUnion 将不同的转换器 应用于整个输入数据 ，然后通过连接它们来组合结果。
另一方面，ColumnTransformer 将不同的转换器应用于整个输入数据的不同子集，并再次连接结果。
对于您提出的情况，ColumnTransformer 应该是第一步。然后，一旦所有列都转换为数字，使用 FeatureUnion，您可以进一步转换它们，例如，结合 PCA 和 SelectKBest
最后，您当然可以将 FeatureUnion 用作 ColumnTransformer，但是您必须在每个分支中包含一个列/类型选择器，而不是仅将感兴趣的列馈入管道中的下一个转换器，如下所述:https://ramhiser.com/post/2018-04-16-building-scikit-learn-pipeline-with-pandas-dataframe/
然而，ColumnTransformer 正是这样做的，而且方式更简单。

关于scikit-learn - featureUnion 与 columnTransformer？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55604249/

25

4

0

文章推荐： Scala - 获取绑定(bind)变量列表？

文章推荐： scala - 进行递归调用，尾递归

文章推荐： kotlin - 为什么 Kotlin 允许编写没有参数的 main 函数？

python - 如何使用管道和 FeatureUnion 添加功能
在下面的代码中，我使用高音扬声器数据集来执行情感分析。我使用执行以下过程的管道: 1) 执行一些基本的文本预处理 2) 向量化推文文本 3) 添加一个额外的特征(文本长度) 4)分类我想再添加一项功
python - FeatureUnion Sklearn 管道中的错误
我有以下数据框: ID Text 1 qwerty 2 asdfgh 我正在尝试为 Text 字段创建 md5 哈希，并从上面的数据框中删除 ID 字段。为了实现这一点，我创建了一个简单的 pip
python - 理解 FeatureUnion (pandas) 工作的困惑
我正在学习 pandas 中的管道和特征联合。我了解管道的工作原理，它有助于对给定数据集应用一系列转换。但是，我对特征联合感到困惑。我读过 docs它说变压器是并行应用的，然后将结果连接起来。我对此
python - 理解 FeatureUnion (pandas) 工作的困惑
我正在学习 pandas 中的管道和特征联合。我了解管道的工作原理，它有助于对给定数据集应用一系列转换。但是，我对特征联合感到困惑。我读过 docs它说变压器是并行应用的，然后将结果连接起来。我对此
scikit-learn - featureUnion 与 columnTransformer？
sklearn 中的 FeatureUnion() 和 ColumnTransformer() 有什么区别？如果我想构建一个包含混合数据类型(分类、数字、非结构化文本)的特征的监督模型，我应该使用哪
python - scikit-learn:FeatureUnion 包含手工制作的功能
我正在对文本数据执行多标签分类。我希望使用 tfidf 的组合功能和类似于示例 here 的自定义语言功能使用FeatureUnion 。我已经生成了自定义语言特征，它们采用字典的形式，其中键代表标
python - FeatureUnion ，管道分类特征与 tfidf 特征抛出错误
我正在尝试连接 tfidf 的特征和其他分类特征，以对结果数据集执行分类。从各种博客中我了解到，FeatureUnion 可用于连接特征，然后将其管道化到算法(在我的例子中为朴素贝叶斯)。我已按照此
python - FeatureUnion 中变压器的绑定(bind)输出
python 和 sklearn 的新手，所以提前致歉。我有两个变压器，我想将结果收集到一个 FeatureUnion 中(用于最后的建模步骤)。这应该非常简单，但 FeatureUnion 正在堆叠
python - 使用 FeatureUnion 拟合管道时出现 IndexError
我不断收到 IndexError:仅整数、切片 (:)、省略号 (...)、numpy.newaxis (None)整数或 bool 数组是有效索引同时尝试将我的数据框适合以下管道。训练和测试是两个
python - scikit-learn FeatureUnion 网格搜索特征子集
如何在 scikit learn 中使用 FeatureUnion，以便 Gridsearch 可以选择性地处理其部分？下面的代码有效并设置了一个 FeatureUnion，其中一个 TfidfVe
machine-learning - scikit 管道 FeatureUnion 的尺寸不匹配错误
这是我的第一篇文章。我一直在尝试将功能与 FeatureUnion 和 Pipeline 结合起来，但是当我添加 tf-idf + svd piepline 时，测试失败并出现“维度不匹配”错误。我的
python - 使用 FeatureUnion 向 scikit-learn 管道中的词袋添加额外的特征
我苦苦挣扎，但仍然无法弄清楚如何在 scikit-learn 管道中使用 FeatureUnion 的文本特征和额外的特征。我有一个句子列表及其标签来训练模型和一个句子列表作为测试数据。然后我尝试向
python - 由于尺寸不同，无法在 scikit-learn 中使用 FeatureUnion
我正在尝试使用 FeatureUnion 从数据结构中提取不同的特征，但由于维度不同而失败:ValueError: blocks[0,:] has incompatible row dimension
python - 使用 ColumnTransformer/FeatureUnion 后构建完整数据框(特征值 + 名称)的推荐方法是什么？
我已经在 Internet 上多次看到这个主题，但从未见过一个完整、全面的解决方案，它可以适用于当前库版本的 sklearn 的所有用例。有人可以尝试使用以下示例解释如何实现吗？ In this ex
python - 如果我将 FeatureUnion 的 Transformer_weights 设置为 0 会发生什么？
如果我将 FeatureUnion 的 Transformer_weights 设置为 0 会发生什么？我想知道我是否可以使用这种方法来选择退出 GridSearchCV 中的一组功能。通过这种方式，
python - 如何使用 sklearn 管道和 FeatureUnion 选择多个(数字和文本)列进行文本分类？
我开发了一个用于多标签分类的文本模型。 OneVsRestClassifier LinearSVC 模型使用 sklearns Pipeline 和 FeatureUnion 进行模型准备。主要输入
pandas - 在 scikit-learn 中使用 Featureunion 为 tfidf 组合两个 Pandas 列
使用时 this作为垃圾邮件分类的模型，我想添加主题和正文的附加功能。我在 Pandas 数据框中拥有我的所有功能。例如，主题是 df['Subject']，正文是 df['body_text']，

首页

博学

6Ren·AI

商城

scikit-learn - featureUnion 与 columnTransformer？