gpt4 book ai didi

python - 将屏蔽 numpy 数组与 rpy2 一起使用

转载 作者:行者123 更新时间:2023-11-30 23:45:29 26 4
gpt4 key购买 nike

import numpy
import rpy2
from rpy2 import robjects
import rpy2.robjects.numpy2ri

r = robjects.r
rpy2.robjects.numpy2ri.activate()

x = numpy.array( [1, 5, -99, 4, 5, 3, 7, -99, 6] )
mx = numpy.ma.masked_values( x, -99 )

print x # works, displays all values
print r.sd(x) # works, but uses -99 values in calculation

print mx # works, now -99 values are masked (--)
print r.sd(mx) # does not work - error

我是 rpy2 和 numpy 的新用户。我在 RHEL5 上使用 R 2.14.1、python 2.7.1、rpy2 2.2.5、numpy 1.5.1。

我需要将数据读入 numpy 数组并在其上使用 rpy2 函数。但是,我需要在将数组与 rpy2 一起使用之前屏蔽缺失值。

我对屏蔽值没有问题,但我无法让 rpy2 处理生成的屏蔽数组。看起来 numpy2ri 转换可能不适用于屏蔽的 numpy 数组? (见下面的错误)

我怎样才能做到这一点?是否可以告诉 rpy2 忽略屏蔽值?我想坚持使用 R 而不是直接使用 scipy/numpy,因为稍后我将进行更高级的统计。

谢谢。

Traceback (most recent call last):
File "d.py", line 16, in <module>
print r.sd(mx) # does not work - error
File "/dev/py/lib/python2.7/site-packages/rpy2-2.2.5dev_20120227-py2.7-linux-x86_64.egg/rpy2/robjects/functions.py", line 82, in __call__
return super(SignatureTranslatedFunction, self).__call__(*args, **kwargs)
File "/dev/py/lib/python2.7/site-packages/rpy2-2.2.5dev_20120227-py2.7-linux-x86_64.egg/rpy2/robjects/functions.py", line 30, in __call__
new_args = [conversion.py2ri(a) for a in args]
File "/dev/py/lib/python2.7/site-packages/rpy2-2.2.5dev_20120227-py2.7-linux-x86_64.egg/rpy2/robjects/numpy2ri.py", line 36, in numpy2ri
vec = SexpVector(o.ravel("F"), _kinds[o.dtype.kind])
TypeError: ravel() takes exactly 1 argument (2 given)

更新:由于 rpy2 无法处理屏蔽的 numpy 数组,我尝试将 -99 值转换为 numpy NaN 值。显然 rpy2 将 numpy NaN 值识别为 R 风格的 NA 值。

下面的代码有效,因为在 r.sd() 调用中我可以告诉 rpy2 不要使用 NA 值。但最初的 NaN 替换肯定比应用 numpy 掩码慢。

你们中的任何一个Python向导能给我一个更快的方法来在一个大的numpy ndarray中进行-99到NaN的替换吗?或者也许建议另一种方法?

谢谢。

# 'x' is a large numpy ndarray I am working with
# ('x' in the original code above was a small test array)

for i in range(900, 950): # random slice of numpy ndarray
for j in range(6225): # full extent across slice
if x[i][j] == -99:
x[i][j] = numpy.NaN

y = x[933] # random piece of converted range
sd = r.sd( y, **{'na.rm': 'TRUE'} ) # r.sd() call that ignores numpy NaN values
print sd

最佳答案

“屏蔽值”的概念(即与要屏蔽的索引列表耦合的值数组)在 R 中并不直接存在。

在 R 中,值要么设置为“缺失”(NA),要么采用原始数据结构的子集(因此创建仅包含此子集的新对象)。

现在,在 numpy 到 rinterface 期间,rpy2 中幕后发生的事情是将 numpy 数组复制到 R 数组中(相反,将 R 数组暴露给 numpy,不一定需要复制)。没有理由不在该阶段处理掩码(如果有人提供补丁,这可能会更快地进入代码库)。另一种方法是创建一个不带屏蔽值的 numpy 数组,然后将其提供给 rpy2。

关于python - 将屏蔽 numpy 数组与 rpy2 一起使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9492501/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com