python - 混合数据类型的转换器-6ren

python - 混合数据类型的转换器

转载作者：行者123 更新时间：2023-12-03 17:09:53

26

4

我遇到了麻烦 一次将不同的变压器应用于不同类型的列 (文本与数字)，并将此类转换器连接到一个转换器中以备后用。
我尝试按照 Column Transformer with Mixed Types 的文档中的步骤进行操作，它解释了如何对分类和数字数据的混合执行此操作，但它似乎不适用于文本数据。
TL; 博士
您如何创建一个可存储的转换器，该转换器遵循不同的文本和数字数据管道？
数据下载和准备

# imports
import numpy as np

from sklearn.compose import ColumnTransformer
from sklearn.datasets import fetch_openml
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.pipeline import FeatureUnion, Pipeline
from sklearn.preprocessing import StandardScaler

np.random.seed(0)

# download Titanic data
X, y = fetch_openml("titanic", version=1, as_frame=True, return_X_y=True)

# data preparation
numeric_features = ['age', 'fare']
text_features = ['name', 'cabin', 'home.dest']
X.fillna({text_col: '' for text_col in text_features}, inplace=True)

# train test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

转换数值特征:ok
按照上面链接中的步骤，可以为数字特征创建一个转换器，如下所示:

# handling missing data and normalization
numeric_transformer = Pipeline(steps=[('imputer', SimpleImputer(strategy='median')),
                                      ('scaler', StandardScaler())])

num_preprocessor = ColumnTransformer(transformers=[('num', numeric_transformer, numeric_features)])

# this works
num_preprocessor.fit(X_train)
train_feature_set = num_preprocessor.transform(X_train)
test_feature_set = num_preprocessor.transform(X_test)

# verify shape = (number of data points, number of numerical features (2) )
train_feature_set.shape  # (1047, 2)
test_feature_set.shape  # (262, 2)

转换文本特征:ok
为了处理文本特征，我使用 TF-IDF 对每个文本列进行矢量化(而不是连接所有文本列，并且只应用一次 TF-IDF):

# Tfidf of max 30 features
text_transformer = TfidfVectorizer(use_idf=True,
                                   max_features=30)
# apply separately to each column
text_transformer_list = [(x + '_vectorizer', text_transformer, x) for x in text_features]
text_preprocessor = ColumnTransformer(transformers=text_transformer_list)

# this works
text_preprocessor.fit(X_train)
train_feature_set = text_preprocessor.transform(X_train)
test_feature_set = text_preprocessor.transform(X_test)

# verify shape = (number of data points, number of text features (3) times max_features(30) )
train_feature_set.shape  # (1047, 90)
test_feature_set.shape  # (262, 90)

你如何同时做到这两点？
我尝试了各种策略来将上述两个过程保存在一个变压器中，但由于不同的错误，它们都失败了。
尝试 1:遵循记录在案的策略
遵循文档( Column Transformer with Mixed Types )不起作用，一旦文本数据替换了分类数据:

# documented strategy
sum_preprocessor = ColumnTransformer(transformers=[('num', numeric_transformer, numeric_features),
                                                   ('text', text_transformer, text_features)])
# fails
sum_preprocessor.fit(X_train)

返回以下错误消息:

ValueError: all the input array dimensions for the concatenation axis must match exactly, but along dimension 0, the array at index 0 has size 1047 and the array at index 1 has size 3

尝试 2: FeatureUnion在变压器 list 上

# create a list of numerical transformer, like those for text
numerical_transformer_list = [(x + '_scaler', numeric_transformer, x) for x in numeric_features]

# fails
column_trans = FeatureUnion([text_transformer_list, numerical_transformer_list])

返回以下错误消息:

TypeError: All estimators should implement fit and transform. '('cabin_vectorizer', TfidfVectorizer(max_features=30), 'cabin')' (type <class 'tuple'>) doesn't

尝试 3: ColumnTransformer在变压器 list 上

# create a list of all transformers, text and numerical
sum_transformer_list = text_transformer_list + numerical_transformer_list

# works
sum_preprocessor = ColumnTransformer(transformers=sum_transformer_list)

# fails
sum_preprocessor.fit(X_train)

返回以下错误消息:

ValueError: Expected 2D array, got 1D array instead:
array=[54. nan nan ... 20. nan nan].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

我的问题
如何创建可以 fit 的单个对象和 transform混合文本和数字类型的数据？

最佳答案

简短的回答:

all_transformers = text_transformer_list + [('num', numeric_transformer, numeric_features)]

all_preprocessor = ColumnTransformer(transformers=all_transformers)

all_preprocessor.fit(X_train)
train_all = all_preprocessor.transform(X_train)
test_all = all_preprocessor.transform(X_test)

print(train_all.shape, test_all.shape)
# prints (1047, 92) (262, 92)

这里的困难在于(大多数？)文本转换器期望一维输入，但(大多数？)数值转换器期望二维输入。 ColumnTransformer通过允许您指定单列或列列表来处理这个问题:在第一种情况下，将一维数组传递给转换器，在第二种情况下传递二维数组。
因此，要解释三个尝试中的错误:
尝试 1:TF-IDF 正在接收一个二维数组，并将列视为文档而不是单个条目，因此仅产生三个输出。当它尝试将它连接到 1047 行的数字输出时，它失败了。
尝试 2: FeatureUnion没有与 ColumnTransformer 相同的输入格式:你不应该有三元组 (name, transformer, columns)在这种情况下。不管怎样， FeatureUnion不是为了你在这里做的事情。
尝试 3:这次您尝试将 1d 数据发送到数值转换器，但那些需要 2d 数据。

关于python - 混合数据类型的转换器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65325103/

26

4

0

文章推荐： android - Android NotificationManager使电话重启

JavaScript 转换器
我在完成这个用于转换咖啡价格的 JavaScript 时遇到问题。我下载了一个调试器，它一直告诉我价格未定义，我不明白。这是脚本。 Coffee House
非持久化实体的 JSF 转换器
我有一个使用以下方法的 JSF 转换器: @Override public Object getAsObject(FacesContext context, UIComponent compo
audio - 免费的声音编辑器/转换器？
我正在寻找类似paint.net 或Gimp 的东西，但对于音频文件，并在Windows 上运行。最佳答案 Audacity太棒了关于audio - 免费的声音编辑器/转换器？，我们在Stack
Java 转换器 setOutputProperty()
我目前正在使用以下代码来缩进 XML: transformer.setOutputProperty(OutputKeys.INDENT, "yes"); transformer.setOutputPr
java - JSF 转换器
我收到以下错误:Conversion Error setting value 'home' for 'null Converter'. Home是所显示内容的字符串表示形式。对我来说，这没有意义。这
具有不同十进制数的 wpf 转换器
我的 UI 中有很多数字要处理。我希望它们中的一些没有小数位，一些是小数点后 2 位，而另一些是小数点后(3 位或 4 位小数)。我有一个名为 DoubleToStringConverter 的转换
Python 转换器 - 我卡住了
我正在制作一个货币转换器。转换器需要一个最小范围和最大范围，如果货币值高于或低于这些范围，转换器将要求您更改范围以能够转换货币。例如，如果用户将范围设置在 min-range 3 和 max-rang
java - 动态注册命令的参数解析/转换器
我正在使用 Spring Shell 2 CLI，并尝试通过反射在运行时从定义的接口(interface)生成命令。更新:接口(interface)的实现也是在运行时生成的。我正在使用 Confi
java - 将参数传递给 jpa 转换器
我正在尝试编写一个通用的 Converter 以在我的代码中的多个类似情况下使用。我有一组子类，我只想使用一个 Converter 来处理，所以我想将一些东西(类类型/一些参数/等)传递给 Conve
csv - 未知列的 read_csv 转换器
我正在尝试读取一个在每个单元格中包含多个值的 csv 文件，并且我想将它们编码为单个 int 格式的字节以存储在 Pandas 单元格中，(例如 (1, 1) -> 771)。为此，我想使用 read
c# - 不同命名空间中的 XAML 转换器
我正在 VC2013 中开发一个 c# Windows Phone 8.1 应用程序，并偶然发现了一个奇怪的问题。为了使我的代码更“干净”，我决定将应用程序的不同部分放入不同的文件夹中。在 c# 代
converter - puppet Chef 转换器
是否有将 Puppet 脚本转换为 Chef 的转换器？我找到了将 Chef 脚本转换为 Puppet 的 ruby 脚本 https://github.com/relistan/chef2pu
spring - 自定义 Cassandra 转换器
我已经开始寻找很好的解决方案，如何使用 Spring CassandraOperations 很好地持久化实体。问题开始是因为我的实体中的某些字段不受 cassandra 支持，例如乔达日期时间。解
javascript - 是否有有效的数组 monad 转换器？
我知道如何实现单链表 monad 转换器，但无法运行其对应的数组。问题是存在分组效应，这使得转换器仅对可交换基 monad 有效。这是一个示例，为了简单起见，转换器和基础 monad 都是数组，并且没
wpf - 使用资源作为转换导致绑定(bind)转换器
当我尝试将值转换器从定义的枚举状态绑定(bind)到刷子时，我的 XAML 设计器中出现错误: 未找到“OKStatus”资源。该应用程序在运行时运行良好，但我无法在设计器中看到我的 GUI。我的
haskell - 列出单子(monad)转换器
我需要使用列表单子(monad)变压器。我读到 ListT IO 存在潜在问题来自 Control.Monad.List , 自 IO不是可交换的，所以我在看 ListT done right .但我
sql - 序言到 SQL 转换器
不用多想，在我看来，一大组 Prolog 的功能可以实现为关系演算(a.k.a. SQL)。有没有人听说过任何工具可以自动将 Prolog 转换为 SQL？最佳答案推荐: https://www
R 十六进制到 RGB 转换器
假设我在十六进制值(包括 alpha)中有这种颜色: x [1] "255 36 0" 但是，查看您请求的结果，您似乎在 x 中将 alpha 值作为第一个十六进制数。 - 所以你需要创建一个子字符
haskell - 用于进度跟踪的 Monad 转换器
我正在寻找可用于跟踪程序进度的 monad 转换器。要解释如何使用它，请考虑以下代码: procedure :: ProgressT IO () procedure = task "Print som
nHibernate 连接多个表并使用 AliasToBean 转换器
我有一个非常基本的需求，即从数据库中获取一些数据并返回一个 DTO。我发现使用 nHibernate 连接多个表和“投影”可以说，到 DTO 是相当多的代码。在查看了几个示例后，大多数示例都不起作用，

首页

博学

6Ren·AI

商城

python - 混合数据类型的转换器