python - FeatureUnion Sklearn 管道中的错误-6ren

python - FeatureUnion Sklearn 管道中的错误

转载作者：太空宇宙更新时间：2023-11-03 15:53:23

24

4

我有以下数据框:

ID Text 
1  qwerty
2  asdfgh

我正在尝试为 Text 字段创建 md5 哈希，并从上面的数据框中删除 ID 字段。为了实现这一点，我创建了一个简单的 pipeline，其中包含来自 sklearn 的自定义转换器。

这是我使用的代码:

class cust_txt_col(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):
    def __init__(self, key):
        self.key = key
    def fit(self, x, y=None):
        return self

    def hash_generate(self, txt):

        m = hashlib.md5()
        text = str(txt)
        long_text = ' '.join(text.split())
        m.update(long_text.encode('utf-8'))
        text_hash= m.hexdigest()
        return text_hash

    def transform(self, x):
        return x[self.key].apply(lambda  z: self.hash_generate(z)).values

class cust_regression_vals(sklearn.base.BaseEstimator, sklearn.base.TransformerMixin):
    def fit(self, x, y=None):
        return self
    def transform(self, x):
        x = x.drop(['Gene', 'Variation','ID','Text'], axis=1)
        return x.values

fp = pipeline.Pipeline([

 ('union', pipeline.FeatureUnion([
        ('hash', cust_txt_col('Text')), # can pass in either a pipeline
        ('normalized', cust_regression_vals()) # or a transformer
    ]))
])

当我运行它时，我收到以下错误:

ValueError: all the input arrays must have same number of dimensions

你能告诉我我的代码有什么问题吗？

如果我一一上课:

对于 cust_txt_col 我得到了低于 o/p

['3e909f222a1e06098ec7ca1ea7e84540' '1691bdba3b75df145169e0501369fce3'
 '1691bdba3b75df145169e0501369fce3' ..., 'e11ec9863aaeb93f77a231319021e14d'
 '851c517b2af0a46cb9bc9373b748b6ff' '0ffe46fc75d21a5347b1f1a5a84526ad']

对于 cust_regression_vals 我低于 o/p

[[qwerty],
  [asdfgh]]

最佳答案

cust_txt_col 返回一维数组。 FeatureUnion 要求每个构成转换器返回一个二维数组。

关于python - FeatureUnion Sklearn 管道中的错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45117902/

24

4

0

文章推荐： python - 如何使用 TensorFlow Estimator API 运行异步预测？

文章推荐： paypal - 一个应用程序与多个 Paypal 账户交互

文章推荐： python - 摆脱没有标题的列

python - 如何使用管道和 FeatureUnion 添加功能
在下面的代码中，我使用高音扬声器数据集来执行情感分析。我使用执行以下过程的管道: 1) 执行一些基本的文本预处理 2) 向量化推文文本 3) 添加一个额外的特征(文本长度) 4)分类我想再添加一项功
python - FeatureUnion Sklearn 管道中的错误
我有以下数据框: ID Text 1 qwerty 2 asdfgh 我正在尝试为 Text 字段创建 md5 哈希，并从上面的数据框中删除 ID 字段。为了实现这一点，我创建了一个简单的 pip
python - 理解 FeatureUnion (pandas) 工作的困惑
我正在学习 pandas 中的管道和特征联合。我了解管道的工作原理，它有助于对给定数据集应用一系列转换。但是，我对特征联合感到困惑。我读过 docs它说变压器是并行应用的，然后将结果连接起来。我对此
python - 理解 FeatureUnion (pandas) 工作的困惑
我正在学习 pandas 中的管道和特征联合。我了解管道的工作原理，它有助于对给定数据集应用一系列转换。但是，我对特征联合感到困惑。我读过 docs它说变压器是并行应用的，然后将结果连接起来。我对此
scikit-learn - featureUnion 与 columnTransformer？
sklearn 中的 FeatureUnion() 和 ColumnTransformer() 有什么区别？如果我想构建一个包含混合数据类型(分类、数字、非结构化文本)的特征的监督模型，我应该使用哪
python - scikit-learn:FeatureUnion 包含手工制作的功能
我正在对文本数据执行多标签分类。我希望使用 tfidf 的组合功能和类似于示例 here 的自定义语言功能使用FeatureUnion 。我已经生成了自定义语言特征，它们采用字典的形式，其中键代表标
python - FeatureUnion ，管道分类特征与 tfidf 特征抛出错误
我正在尝试连接 tfidf 的特征和其他分类特征，以对结果数据集执行分类。从各种博客中我了解到，FeatureUnion 可用于连接特征，然后将其管道化到算法(在我的例子中为朴素贝叶斯)。我已按照此
python - FeatureUnion 中变压器的绑定(bind)输出
python 和 sklearn 的新手，所以提前致歉。我有两个变压器，我想将结果收集到一个 FeatureUnion 中(用于最后的建模步骤)。这应该非常简单，但 FeatureUnion 正在堆叠
python - 使用 FeatureUnion 拟合管道时出现 IndexError
我不断收到 IndexError:仅整数、切片 (:)、省略号 (...)、numpy.newaxis (None)整数或 bool 数组是有效索引同时尝试将我的数据框适合以下管道。训练和测试是两个
python - scikit-learn FeatureUnion 网格搜索特征子集
如何在 scikit learn 中使用 FeatureUnion，以便 Gridsearch 可以选择性地处理其部分？下面的代码有效并设置了一个 FeatureUnion，其中一个 TfidfVe
machine-learning - scikit 管道 FeatureUnion 的尺寸不匹配错误
这是我的第一篇文章。我一直在尝试将功能与 FeatureUnion 和 Pipeline 结合起来，但是当我添加 tf-idf + svd piepline 时，测试失败并出现“维度不匹配”错误。我的
python - 使用 FeatureUnion 向 scikit-learn 管道中的词袋添加额外的特征
我苦苦挣扎，但仍然无法弄清楚如何在 scikit-learn 管道中使用 FeatureUnion 的文本特征和额外的特征。我有一个句子列表及其标签来训练模型和一个句子列表作为测试数据。然后我尝试向
python - 由于尺寸不同，无法在 scikit-learn 中使用 FeatureUnion
我正在尝试使用 FeatureUnion 从数据结构中提取不同的特征，但由于维度不同而失败:ValueError: blocks[0,:] has incompatible row dimension
python - 使用 ColumnTransformer/FeatureUnion 后构建完整数据框(特征值 + 名称)的推荐方法是什么？
我已经在 Internet 上多次看到这个主题，但从未见过一个完整、全面的解决方案，它可以适用于当前库版本的 sklearn 的所有用例。有人可以尝试使用以下示例解释如何实现吗？ In this ex
python - 如果我将 FeatureUnion 的 Transformer_weights 设置为 0 会发生什么？
如果我将 FeatureUnion 的 Transformer_weights 设置为 0 会发生什么？我想知道我是否可以使用这种方法来选择退出 GridSearchCV 中的一组功能。通过这种方式，
python - 如何使用 sklearn 管道和 FeatureUnion 选择多个(数字和文本)列进行文本分类？
我开发了一个用于多标签分类的文本模型。 OneVsRestClassifier LinearSVC 模型使用 sklearns Pipeline 和 FeatureUnion 进行模型准备。主要输入
pandas - 在 scikit-learn 中使用 Featureunion 为 tfidf 组合两个 Pandas 列
使用时 this作为垃圾邮件分类的模型，我想添加主题和正文的附加功能。我在 Pandas 数据框中拥有我的所有功能。例如，主题是 df['Subject']，正文是 df['body_text']，

首页

博学

6Ren·AI

商城

python - FeatureUnion Sklearn 管道中的错误