python Pandas : merge loses categorical columns-6ren

python Pandas : merge loses categorical columns

转载作者：太空狗更新时间：2023-10-29 20:30:34

27

4

我正在处理分类数据的大型数据帧，我发现当我在两个数据帧上使用 pandas.merge 时，任何分类数据列都会自动向上转换为更大的数据类型。 (这会显着增加 RAM 消耗。)一个简单的例子来说明:

编辑:做了一个更合适的例子

import pandas
import numpy

df1 = pandas.DataFrame(
    {'ID': [5, 3, 6, 7, 0, 4, 8, 2, 9, 1, 6, 5, 4, 9, 7, 2, 1, 8, 3, 0], 
     'value1': pandas.Categorical(numpy.random.randint(0, 2, 20))})

df2 = pandas.DataFrame(
    {'ID': [5, 3, 6, 7, 0, 4, 8, 2, 9, 1],  
     'value2': pandas.Categorical(['c', 'a', 'c', 'a', 'c', 'b', 'b', 'a', 'a', 'b'])})

result = pandas.merge(df1, df2, on="ID")
result.dtypes


Out []:
ID         int32
value1     int64
value2    object
dtype: object

我希望 value1 和 value2 在结果 DataFrame 中保持分类。字符串标签转换为对象类型的成本可能特别高。

来自 https://github.com/pydata/pandas/issues/8938这可能是预期的？有什么办法可以避免这种情况吗？

最佳答案

我可能遗漏了您的目标，但目的是让用户在需要时转换为(或不转换)类别。我认为在这种特殊情况下，这可以自动完成。老实说，分类转换无论如何都会在最后完成，所以这实际上不会为您节省任何东西(通过在 merge 中进行)。

In [57]: result = pandas.merge(df1, df2, on="ID")

In [58]: result['value1'] = result['value1'].astype('category')

In [59]: result['value2'] = result['value2'].astype('category')

In [60]: result
Out[60]: 
    ID value1 value2
0    5      0      c
1    5      1      c
2    3      0      a
3    3      1      a
4    6      0      c
5    6      0      c
6    7      0      a
7    7      1      a
8    0      1      c
9    0      1      c
10   4      1      b
11   4      1      b
12   8      0      b
13   8      1      b
14   2      1      a
15   2      1      a
16   9      0      a
17   9      1      a
18   1      0      b
19   1      1      b

In [61]: result.dtypes
Out[61]: 
ID           int64
value1    category
value2    category
dtype: object

In [62]: result.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 20 entries, 0 to 19
Data columns (total 3 columns):
ID        20 non-null int64
value1    20 non-null category
value2    20 non-null category
dtypes: category(2), int64(1)
memory usage: 400.0 byte

关于 python Pandas : merge loses categorical columns，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29280393/

27

4

0

文章推荐： c# - 连接超时已过期。登录后阶段超时时间已过

文章推荐： C++、仿函数、特定任务/场景、将用户输入映射到函数

文章推荐： c# - 从 C# 调用的托管 C++ 中的类

merge - mercurial中 merge 子存储库的多个分支的 merge 历史
我从一个 Mercurial 存储库开始，它有多个我试图 merge 到其中的子存储库，就好像它们一直是主存储库的一部分一样。它们从一开始就不应该是子存储库。我整理了一个将旧历史转换为单个存储库的过
git - 将 merge merge 为一个 merge
假设我有一个主线分支和一个功能分支。我已经多次将主线分支 merge 到功能分支中，但只有少数非常小的 merge 冲突。我想清理历史，以便最后只有一个 merge 。执行此操作的最佳方法是什么？最
python - heapq.merge : after merge the result of merge, 原合并为空
首先我使用heapq.merge创建了a&b的两个结果，但是在mergea&b之后，我发现a的列表是空的。 >>> a=merge([1,2],[3,4]) >>> b=merge([4,5],[6,
git - 如何重新 merge merge 但保持 merge 提交
我和我的团队正在使用远离主轨道 (origin/dev) 的远程分支 (origin/our_feature_branch) 开发一项功能。 Gerrit用于审查等。使用 git merge ori
git fake merge(将提交标记为 merge 而没有真正的 merge )
这个问题在这里已经有了答案: Is there a way to merge with Strategy "ours" without producing a new commit? (1 个回答)
GitLab 无法自动 merge 。 merge 请求包含必须解决的 merge 冲突
GitLab 无法自动 merge 请求。所有 merge 请求都会收到消息“此 merge 请求包含必须解决的 merge 冲突。您可以在命令行上手动尝试” 消息似乎不正确，我通过使用“git br
GIT:如何在不实际 merge 文件的情况下 merge 两个分支(简单 merge )
git 有没有办法在不 merge 文件的情况下 merge 两个分支？换句话说就是绘制 merge 箭头。假设我有分支 A 和 B。我需要将分支 B merge 到 A，但不需要 B 中的所有更改
git - 使用git子树 merge ，同时也 merge 所有 merge 子树的所有分支
我想使用提供 git 集成的流行的开源问题跟踪器 (Redmine)。不幸的是，跟踪器中的每个项目只能与一个 git repo 相关联。在跟踪器中创建多个项目不是我理想的设置。考虑到这一点，我尝试使
git - 当正在 merge 的分支已经 merge 并恢复时，如何强制 merge 提交？
在我们的存储库中，我们遵循基于 git-flow 的工作流程。我们有一个已完成的发布(安装在生产环境中)，因此发布分支已 merge 到主分支中。 B---C---D---E [release
git - 当不可能进行快进 merge 时，如何防止 merge 回退到正常的 merge 策略？
git merge 命令有一个执行快进 merge 的选项，但这不是我想要的，因为如果它不能执行快进 merge ，它会使用普通 merge . 是否有一个 git 命令仅执行快进 merge (从跟
merge - "TF14083: The item {0} has a pending merge from the current merge operation"合并TFS2008时
尝试合并 TFS2008 时出现此错误。源分支或目标分支上都没有挂起的更改。 TF14083: The item {0} has a pending merge from the current me
git - github merge "pull-request"和gitlab merge "merge-request"的区别
为了更好地理解这些操作，我想知道 github 或 gitlab 到底是如何 merge 这些请求的。当压缩、 rebase 、 merge ......时详细执行哪些 git 命令？最佳答案 PR
git - github merge "pull-request"和gitlab merge "merge-request"的区别
为了更好地理解这些操作，我想知道 github 或 gitlab 到底是如何 merge 这些请求的。当压缩、 rebase 、 merge ......时详细执行哪些 git 命令？最佳答案 PR
merge - 如何只 merge 一些文件？
我试图将提交的一部分从默认分支(不是所有文件和其他文件的部分) merge 到一个命名分支。我试过 graft ，但它只需要整个提交，而没有给我选择的机会。这将如何完成？例子: A---B---C-
merge - Mercurial merge 会生成标记为已修改但二进制相等的文件
我正在进行 merge ，此时我已准备好提交，但我在 TortoiseHg 中的提交对话框显示许多文件已修改，但是当我与 parent 进行比较时，它说所有文件都是二进制相等的。我没有也从未有过 e
merge - DB2 MERGE 语句错误
我已经尝试了以下几种变体，但我仍然遇到错误。有什么办法可以解决这个问题。 DB2 10.1(DB2 for z/OS V10) 对于以下 MERGE INTO TRGT t USING SRC s O
merge - Neo4j:MERGE 创建重复节点
我的数据库模型有用户和 MAC 地址。一个用户可以有多个MAC地址，但一个MAC只能属于一个用户。如果某个用户设置了他的 MAC，并且该 MAC 已经链接到另一个用户，则现有关系将被删除，并在新所有者
merge 多个 merge 时减少噪音的Git程序？
假设我有一个新功能，所以我创建了一个新分支。这个分支是一个会持续很长时间的副项目，所以我最终将 master merge 回它以使其保持最新状态。这已经发生了 50 次，因为我一直在更新它并消除该功能
merge - 如何继续 Mercurial merge
过去几个小时我在 Mercurial 中进行了一次巨大的 merge 。 merge 131 个文件后，我的 merge 工具 meld 崩溃，显示 python 回溯。在尝试退出 meld 时，我无
Git merge - merge 后的分支会发生什么？
我有一个关于 git merge 的问题。假设我的存储库中有两个分支(本地和远程):master 和 test。当我在测试分支上工作时，主分支被其他人更新了。在终端中，我写: git checkout

首页

博学

6Ren·AI

商城

python Pandas : merge loses categorical columns