- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我需要将 Pandas 数据框中的一列分类变量转换为一个数值,该数值对应于该列中唯一分类变量数组的索引(长话短说!),这是实现该操作的代码片段:
import pandas as pd
import numpy as np
d = {'col': ["baked","beans","baked","baked","beans"]}
df = pd.DataFrame(data=d)
uniq_lab = np.unique(df['col'])
for lab in uniq_lab:
df['col'].replace(lab,np.where(uniq_lab == lab)[0][0].astype(float),inplace=True)
转换数据框:
col
0 baked
1 beans
2 baked
3 baked
4 beans
进入数据框:
col
0 0.0
1 1.0
2 0.0
3 0.0
4 1.0
随心所欲。但我的问题是,当我尝试在大数据文件上运行类似代码时,我愚蠢的小 for 循环(我想到的唯一方法)像糖蜜一样慢。我只是想知道是否有人对是否有任何方法可以更有效地做到这一点有任何想法。提前感谢您的任何想法。
最佳答案
使用factorize
:
df['col'] = pd.factorize(df.col)[0]
print (df)
col
0 0
1 1
2 0
3 0
4 1
编辑:
作为Jeff
评论中提到,那么最好是将列转换为 categorical
主要是因为 less memory usage :
df['col'] = df['col'].astype("category")
时间:
有趣的是,在大型 df 中,pandas
比 numpy
更快。我简直不敢相信。
len(df)=500k
:
In [29]: %timeit (a(df1))
100 loops, best of 3: 9.27 ms per loop
In [30]: %timeit (a1(df2))
100 loops, best of 3: 9.32 ms per loop
In [31]: %timeit (b(df3))
10 loops, best of 3: 24.6 ms per loop
In [32]: %timeit (b1(df4))
10 loops, best of 3: 24.6 ms per loop
len(df)=5k
:
In [38]: %timeit (a(df1))
1000 loops, best of 3: 274 µs per loop
In [39]: %timeit (a1(df2))
The slowest run took 6.71 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 3: 273 µs per loop
In [40]: %timeit (b(df3))
The slowest run took 5.15 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 3: 295 µs per loop
In [41]: %timeit (b1(df4))
1000 loops, best of 3: 294 µs per loop
len(df)=5
:
In [46]: %timeit (a(df1))
1000 loops, best of 3: 206 µs per loop
In [47]: %timeit (a1(df2))
1000 loops, best of 3: 204 µs per loop
In [48]: %timeit (b(df3))
The slowest run took 6.30 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 3: 164 µs per loop
In [49]: %timeit (b1(df4))
The slowest run took 6.44 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 3: 164 µs per loop
测试代码:
d = {'col': ["baked","beans","baked","baked","beans"]}
df = pd.DataFrame(data=d)
print (df)
df = pd.concat([df]*100000).reset_index(drop=True)
#test for 5k
#df = pd.concat([df]*1000).reset_index(drop=True)
df1,df2,df3, df4 = df.copy(),df.copy(),df.copy(),df.copy()
def a(df):
df['col'] = pd.factorize(df.col)[0]
return df
def a1(df):
idx,_ = pd.factorize(df.col)
df['col'] = idx
return df
def b(df):
df['col'] = np.unique(df['col'],return_inverse=True)[1]
return df
def b1(df):
_,idx = np.unique(df['col'],return_inverse=True)
df['col'] = idx
return df
print (a(df1))
print (a1(df2))
print (b(df3))
print (b1(df4))
关于Python - 加快将分类变量转换为其数字索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37672704/
fiddle :http://jsfiddle.net/rtucgv74/ 我正在尝试将第一个字符与 3 位数字匹配。所以下面的代码应该提醒f234。但反而返回 null ? 源代码: var reg
复制代码 代码如下: Dim strOk,strNo strOk = "12312321$12
我想找 {a number} / { a number } / {a string}模式。我可以得到number / number工作,但是当我添加 / string它不是。 我试图找到的例子: 15
我,我正在做一个模式正则表达式来检查字符串是否是: 数字.数字.数字,如下所示: 1.1.1 0.20.2 58.55541.5221 在java中我使用这个: private static Patt
我有一个字符串,我需要检查它是否在字符串的末尾包含一个数字/数字,并且需要将该数字/数字递增到字符串末尾 +1 我会得到下面的字符串 string2 = suppose_name_1 string3
我正在寻找一个正则表达式 (数字/数字),如(1/2) 数字必须是 1-3 位数字。我使用 Java。 我认为我的问题比正则表达式更深。我无法让这个工作 String s ="(1/15)";
谁能帮我理解为什么我在使用以下代码时会出现类型错误: function sumOfTwoNumbersInArray(a: [number, number]) { return a[0] +
我看到有些人过去也遇到过类似的问题,但他们似乎只是不同,所以解决方案也有所不同。所以这里是: 我正在尝试在 Google Apps 脚本中返回工作表的已知尺寸范围,如下所示: var myRange
我试图了解python中的正则表达式模块。我试图让我的程序从用户输入的一行文本中匹配以下模式: 8-13 之间的数字“/” 0-15 之间的数字 例如:8/2、11/13、10/9 等。 我想出的模式
简单地说,我当前正在开发的程序要求我拆分扫描仪输入(例如:2 个火腿和奶酪 5.5)。它应该读取杂货订单并将其分成三个数组。我应该使用 string.split 并能够将此输入分成三部分,而不管中间字
(number) & (-number) 是什么意思?我已经搜索过了,但无法找到含义 我想在 for 循环中使用 i & (-i),例如: for (i = 0; i 110000 .对于i没有高于
需要将图像ID设置为数字 var number = $(this).attr('rel'); number = parseInt(number); $('#carousel .slid
我有一个函数,我想确保它接受一个字符串,后跟一个数字。并且可选地,更多的字符串数字对。就像一个元组,但“无限”次: const fn = (...args: [string, number] | [s
我想复制“可用”输入数字的更改并将其添加或减去到“总计”中 如果此人将“可用”更改为“3”,则“总计”将变为“9”。 如果用户将“可用”更改为“5”,则“总计”将变为“11”。 $('#id1').b
我有一个与 R 中的断线相关的简单问题。 我正在尝试粘贴,但在获取(字符/数字)之间的断线时遇到问题。请注意,这些值包含在向量中(V1=81,V2=55,V3=25)我已经尝试过这段代码: cat(p
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我在 Typescript 中收到以下错误: Argument of type 'number[]' is not assignable to parameter of type 'number' 我
在本教程中,您将通过示例了解JavaScript 数字。 在JavaScript中,数字是基本数据类型。例如, const a = 3; const b = 3.13; 与其他一些编程语言不同
我在 MDN Reintroduction to JavaScript 上阅读JavaScript 数字只是浮点精度类型,JavaScript 中没有整数。然而 JavaScript 有两个函数,pa
我们在 Excel 中管理库存。我知道这有点过时,但我们正在发展商业公司,我们所有的钱都被困在业务上,没有钱投资 IT。 所以我想知道我可以用Excel自动完成产品编号的方式进行编程吗? 这是一个产品
我是一名优秀的程序员,十分优秀!