- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在处理分类数据的大型数据帧,我发现当我在两个数据帧上使用 pandas.merge 时,任何分类数据列都会自动向上转换为更大的数据类型。 (这会显着增加 RAM 消耗。)一个简单的例子来说明:
编辑:做了一个更合适的例子
import pandas
import numpy
df1 = pandas.DataFrame(
{'ID': [5, 3, 6, 7, 0, 4, 8, 2, 9, 1, 6, 5, 4, 9, 7, 2, 1, 8, 3, 0],
'value1': pandas.Categorical(numpy.random.randint(0, 2, 20))})
df2 = pandas.DataFrame(
{'ID': [5, 3, 6, 7, 0, 4, 8, 2, 9, 1],
'value2': pandas.Categorical(['c', 'a', 'c', 'a', 'c', 'b', 'b', 'a', 'a', 'b'])})
result = pandas.merge(df1, df2, on="ID")
result.dtypes
Out []:
ID int32
value1 int64
value2 object
dtype: object
我希望 value1 和 value2 在结果 DataFrame 中保持分类。字符串标签转换为对象类型的成本可能特别高。
来自 https://github.com/pydata/pandas/issues/8938这可能是预期的?有什么办法可以避免这种情况吗?
最佳答案
我可能遗漏了您的目标,但目的是让用户在需要时转换为(或不转换)类别。我认为在这种特殊情况下,这可以自动完成。老实说,分类转换无论如何都会在最后完成,所以这实际上不会为您节省任何东西(通过在 merge 中进行)。
In [57]: result = pandas.merge(df1, df2, on="ID")
In [58]: result['value1'] = result['value1'].astype('category')
In [59]: result['value2'] = result['value2'].astype('category')
In [60]: result
Out[60]:
ID value1 value2
0 5 0 c
1 5 1 c
2 3 0 a
3 3 1 a
4 6 0 c
5 6 0 c
6 7 0 a
7 7 1 a
8 0 1 c
9 0 1 c
10 4 1 b
11 4 1 b
12 8 0 b
13 8 1 b
14 2 1 a
15 2 1 a
16 9 0 a
17 9 1 a
18 1 0 b
19 1 1 b
In [61]: result.dtypes
Out[61]:
ID int64
value1 category
value2 category
dtype: object
In [62]: result.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 20 entries, 0 to 19
Data columns (total 3 columns):
ID 20 non-null int64
value1 20 non-null category
value2 20 non-null category
dtypes: category(2), int64(1)
memory usage: 400.0 byte
关于 python Pandas : merge loses categorical columns,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29280393/
关闭。这个问题需要details or clarity .它目前不接受答案。 想改进这个问题吗? 通过 editing this post 添加细节并澄清问题. 关闭 7 年前。 Improve t
我正在处理 SQL 和用户输入。因此,我使用 glue 库来处理参数化查询。 但是,为了保持简洁,我将所有内容包装在一个函数中: safeQuery SELECT * FROM foo WHERE
我的拓扑是这样的:kafka(p:6)->reduce(p:6)->db writer(p:12)(其中p:是并行)。 我让它在单个节点“集群”上运行 taskmanager.numberOfTask
我有一个 Singleton 类,我试图用它来存储从 Internet 下载的图像,以便我可以随时访问它。工作流程是我登录到 Facebook,并将图像下载到 Singleton 类。一切都很好,它显
首先,这是我的声明和初始化: int** GameField = 0; GameField = new int*[mapsize]; for(int i = 0; i
我正在使用 pthreads 编写一个多线程演示程序,其中一个线程将数据加载到 STL 队列中,另一个线程从中读取数据。听起来微不足道,对吧?不幸的是,插入队列的数据正在消失。我对多线程并不陌生,也不
我有一个函数 (GetArgs) 使用可变参数模板对它的参数(每个指针)进行排序,将每个参数发送到另一个函数 (GetArg),该函数已为每种类型重载(目前是整数和 float )。每种类型的重载函数
我成功地使用蓝牙连接了 iPhone 和 Mac。 iPhone 是核心,Mac 是外围设备。连接后,两者都可以通信(iPhone 正在订阅一些特征,由 Mac 宣传)。 但是,经过一段时间(随机?)
这是一个足够简单的问题,令我感到惊讶的是,我找不到任何对之前问过它的人的引用。和this不一样,也不受 this discussion 的保护. 我有一个 4-d 矩阵(尺寸为 16x10x15x39
我正在使用两个组件,并且我正在使用这种模式:子组件应尽可能保持隔离 - 它正在处理自己的验证错误。父组件应该检查子组件之间存在依赖关系的错误。因此,就我而言:密码字段和密码确认字段。 这是我的代码
我有一个应用程序,用户可以通过两种方式浏览 map (例如缩略图和列表中的 map ) /map/browse /map/list 现在,我想将这些 View 限制为仅显示特定用户的 map ,例如通
我有这种类型和这些功能: data Tag a where Tag :: (Show a, Eq a, Ord a, Storable a, Binary a) => a -> BL.Byte
我写了一个非常简单的 Flink 流作业,它使用 FlinkKafkaConsumer082 从 Kafka 获取数据。 protected DataStream getKafkaStream(Str
几天前我不小心删除了我的.bashrc。我尝试重新创建它,但不幸的是我仍然遇到一些问题。我以前使用的 Java 调试器不再正常工作,因为它找不到这个类: aetherboard:Home shwang
我正在尝试序列化/反序列化以下内容 @JsonTypeInfo(use = JsonTypeInfo.Id.NAME) @JsonSubTypes({ @JsonSubTypes.Type(v
我目前正在编写一个非常小的Java程序来实现一次性pad,其中pad(或 key )本身是使用SecureRandom对象生成为一系列字节的,该对象使用一个简单的字符串进行播种SHA-512 算法。
您可以通过在物理设备上下载并运行此代码来重现错误:https://github.com/Hoya/RCCPeakableImageView 它所做的是通过 UIImageView 子类向图像添加视差效
我在使用 google analytis 时遇到了一些问题。我们有一个网站,用户可以在登陆页面上填写个人信息(姓名、地址、电子邮件等)。该网站位于http://link.提交表单后,用户将被定向到 h
我正在创建一个可以使用键盘控件旋转的 3D 立方体。但是在旋转之后,每张脸的部分失去了交互性(鼠标事件不会在包含的元素上注册)。任何人都知道可能导致该问题的原因是什么? 这很难解释,所以这里有一个测试
我今天在调试 SWIG 类型映射时遇到了一个有趣的问题。任何人都想告诉我为什么 Visual C++ 2008 在从 ourLib::Char * 转换为 const ourLib::Char * &
我是一名优秀的程序员,十分优秀!