machine-learning - 流水线生产 oneHotEncoding-6ren

machine-learning - 流水线生产 oneHotEncoding

转载作者：行者123 更新时间：2023-11-30 09:14:19

25

4

我正在尝试自动化我的训练和预测过程。但我对一种热编码有疑问。

假设我有一个如下所示的专栏:

column /
a      /
b      /
c      /

如果我对其进行编码，每个字母将得到 3 列，但如果稍后我下载一些新数据后，在同一列中我只有 a 和 b，则不会创建名为“column_c”的列所以由于形状的原因我无法预测使用模型，我将有 2 列而不是 3 列。

我该如何解决这个问题？

谢谢

最佳答案

仅当您重新训练 OneHotEncoder 时才会发生您所描述的错误，而您不应该在自动化过程中执行此操作。您应该像任何其他 ML 模型一样在训练数据集上训练 OneHotEncoder，然后将此经过训练的编码器应用于您想要通过自动化管道提供的任何新数据。

示例:

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

df1 = pd.DataFrame({"cat_col":["a","b","c"]})
df2 = pd.DataFrame({"cat_col":["a","b"]})

ohe = OneHotEncoder(handle_unknown="ignore")

print(ohe.fit_transform(df1).toarray())
print(ohe.transform(df2).toarray())

这将返回

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]]

关于machine-learning - 流水线生产 oneHotEncoding，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59220528/

25

4

0

文章推荐： javascript - .then() 似乎没有等待前一个 .then()

assembly - assembly 流水线
我需要多少档才能正确执行以下指令。我对我所做的事情有些困惑，所以我在这里看到专家的答案。 lw $1,0($2); beq $1,$2,Label; 请注意，检查是否会发生分支将在解码阶段完成。但是在
c - 流水线/超标量性能代码段错误
我正在用 C 语言编写这段代码，它计算并绘制 6 级流水线和超标量架构上的周期总数。代码编译得很好，但是当我运行它时，出现段错误。我在此选项中遇到段错误。我输入我的选择为 1，然后输入总周期为 5。
c - 流水线 - 在两个程序之间发送字符串
我一直在阅读有关流水线的内容，也阅读了这个主题 - How to send a simple string between two programs using pipes? 我阅读了@jschmie
HTTP 流水线 - 每个连接的并发响应
我刚刚在读这个Wikipedia article在 HTTP 流水线和图表中，似乎可以在一个连接上同时发送响应。我是不是误解了图表，或者这是允许的吗？ Section 8.1.2.2 of RFC 2
HTTP:流水线、保持事件和服务器发送事件之间的关系是什么？
我试图了解什么是 HTTP 流水线和 HTTP keep-alive 连接，并试图在这两个主题和 Server Sent 事件技术之间建立联系。据我了解，HTTP keep-alive connec
Android HTTP 流水线
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
基于Rainbond的Pipeline(流水线)插件
背景 Rainbond 本身具有基于源码构建组件的能力，可以将多种编程语言的代码编译成 Docker 镜像，但是在持续集成的过程中，往往会需要对提交的代码进行静态检查、构建打包以及单元测试。之
一篇带你创建 Tekton 流水线
前面我们创建的两个任务 test 和 build-and-push 都已经完成了，我们还可以创建一个流水线来将这两个任务组织起来，形成一个流水线，这里就是我们要使用的 Pipeline 这个 C
php - 数据表、Ajax 流水线
我将数据表与 pipelining 一起使用.我工作得很好，除非我试图输入一个额外的列来保存“编辑”链接。参见 this表。这是显示列的 server_processing.php 片段: /
concurrency - 使用并发的 Golang 流水线
Go 新手。我正在尝试编写一个“流水线”，其中多个函数像 worker 一样工作，并在流水线中将一些数据结构传递给彼此，每个函数都对数据结构做一些事情。 type orderStruct struct
performance - 分析云数据流 BigQuery 吞吐量/流水线
我正在尝试弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳。首先，我刚刚创建了一个简单的流程，它从 BigQuery 中读取数据(约 2500 万行，总共 30GB)，进行 JSON 提
bash - 流水线 |在 bash 用法中？
我正在学习 BASH，我的问题如下。我正在使用 tar -zxvf 解压缩一个文件，这会返回一个(我认为)是一个列表类型 ls -l 从它被提取的文件夹.我想要做的是使用 head -1 获取它的第
java - HTTP 1.1 流水线
我必须在 Java 中实现一个 HTTP 客户端，对于我的需要来说，最有效的方法似乎是实现 HTTP 管道(根据 RFC2616)。顺便说一句，我想对 POST 进行流水线处理。 (此外，我不是在谈
http - S3 是否支持 HTTP 流水线？
我每分钟有数千个小文件(大约 1 KB)要上传到 S3。如果我上传循环中的每个文件“发送我的 HTTP 请求 - 等待 S3 的 HTTP 响应 - 发送下一个请求 - 等待下一个响应......”，
c++ - 处理接收到的 MPI 数据(流水线)
假设我有一个来自机器 A 的 MPI_Send，其中包含一条巨大的消息，而在另一台机器(比如 B)上，它正在通过 MPI_Recv(或分别为 MPI_isend 和 MPI_irecv)接收。目前，B
caching - CacheManager.Net - Redis 流水线
有人可以确认 CacheManager.Net 是否支持 redis 流水线吗？我在 documentation 中找不到它非常感谢。干杯，你最佳答案有点。CacheManager 不直接支
x86 rep 指令在现代(流水线/超标量)处理器上的性能
我最近一直在编写 x86 程序集(为了好玩)，并且想知道 rep 前缀字符串指令是否真的在现代处理器上具有性能优势，或者它们是否只是为了向后兼容而实现的。我可以理解为什么英特尔最初会在处理器一次只运
docker - Docker 中的 Jenkins Docker 流水线
我正在学习本教程: https://www.linkedin.com/pulse/building-docker-pipeline-cloudbees-jenkins-jay-johnson 我在 D
continuous-integration - Kubernetes CI/CD 流水线
我的公司已决定过渡到基于微/服务的架构。在过去的几个月里，我们一直在做大量的研究，以了解这个东西的架构究竟会是什么样子。到目前为止，我们已经确定: 用于服务开发的 Dotnet 核心(尽管与语言无
c++ - Cap'n Proto 和 promise 流水线
我想尝试使用 Cap'n Proto C++ RPC 进行 promise 流水线操作，但我不知道该怎么做。这是我的模式: interface Test { getInt @0 () -> (i

首页

博学

6Ren·AI

商城

machine-learning - 流水线生产 oneHotEncoding