- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我已经确认 genfromtxt 函数(以及派生自它的函数)静默缓存它们正在本地目录中处理的远程文件,并在后续调用中使用本地副本而不检查它是否已更改.
通过查看源文件 npyio.py发生这种情况似乎是因为 DataSource在不传递相关参数的情况下创建处理请求的对象。修改库源以禁用缓存当然很容易,但每次升级后我都必须重复。
还有其他解决办法吗? (除了每次都删除缓存目录)
最佳答案
我觉得这道题其实是由两部分组成的:
如果库的功能与要求的行为不完全匹配怎么办?
具体如何处理genfromtxt
的缓存行为?
关于 1.,包装(可能通过注入(inject))比修补库更具弹性(除非修补是在上游完成的,在库的 repo 中)。
所以包装 genfromtxt
可以像这样完成:
def patched_gen_from_text(*args, **kwargs):
# Do something regarding caching
return numpy.genfromtxt(*args, **kwargs)
您甚至可以在不修改源代码的情况下将其作为 numpy.genfromtext 注入(inject)(我不推荐这样做):
import numpy
numpy.genfromtxt = patched_gen_from_text
关于 2. 这实际上取决于您对远程文件系统的访问权限(例如,您可以在那里运行进程吗?您可以安装它吗?),以及速度和所需确定性之间的权衡。
例如,在一种极端情况下,您的补丁版本可能会无条件地删除本地文件(确定但缓慢)。或者,您可以请求远程文件的更新时间和长度,并查看它们与本地文件的对应关系。在另一个极端,您可以在另一台计算机上对 RPC 运行 md5 检查。
您可能想查看 filecmp对于不同的比较选项,以及某些情况下可能的实际构建 block 。
关于python - genfromtxt : how to disable caching,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30139451/
我正在尝试读取以字符串形式存储在数据文件中的文件名。那里没问题。如果我将它传递给 genfromtxt,我会收到错误“IOError:Z:\Python\Rb input.txt not found”
我对 numpy.genfromtxt 函数有一个非常基本的问题。我正在使用 Enthought Canopy 包:我应该在哪里保存我想使用的 file.txt,或者我应该如何告诉 Python 在哪
我想使用 genfromtxt 读取一个 csv 文件。我有六列是 float ,一列是字符串。 如何设置数据类型,以便将 float 列作为 float 读入,将 string 列作为字符串读入?我
我有以下格式的数据 csv 文件: 130, 706, 249, 627, 428, 767, 430, 63, 884, 593 964, 340, 848, 607, 142, 517, 294
我正在尝试使用 scikit-learn 进行一些分类。但是,我在开始工作和导入数据时遇到了麻烦。 我正在处理这些数据:Adult Data Set . 我是 numpy 和 scikit-learn
我是 Python 的新手,目前在处理我的输入文件读取时遇到问题。基本上我希望我的代码采用一个输入文件,其中相关信息包含在 4 行的 block 中。对于我的特定目的,我只关心每个 block 的第
我有下表: 2M00251602+5422547 7.180 9.000 2.200 #2M00255540+5749320
我有一个 50,000x5,000 矩阵(浮点)文件。当使用 x = np.genfromtxt(readFrom, dtype=float) 将文件加载到内存中时,我收到以下错误消息: File "
我想知道当从具有多列的给定 (csv) 文件加载数据时如何替换特定值,结合字符串和数值。 在下面的示例中,假设您有多个地理位置,具有已知的纬度和经度以及一组特定的属性 (P1-P5) 和一个类(仅包含
在只加载一列数据的情况下,有没有办法强制 genfromtxt 输出形状为:(xx, 1) 的数据?通常的形状是(xx,)。我的示例中的 xx 可以是任何整数。 更新:这是代码示例: import n
我有一个 csv 文件,其中包含: 0812,EP2463,R,FEIGE 0812,EP2466,R,FEIGE 0816,EP2462,R,FEIGE 0816,EP2460,R,FEIGE 我需
我的包 numpy.genfromtxt 有一个奇怪的问题.我用它来读取包含多个列(可用 here )的数据文件,但即使 unpack 设置为 True,这些文件也不会被解压。 这是一个MWE: im
在问这个问题之前我已经阅读了这两个问题( q1 和 q2 )但是我没有找到任何令人满意的答案 我需要从二维数组中提取两列,而不是使用 pandas 或 loadtxt,而是使用 genfromtxt
我正在使用 numpy.genfromtxt 导入 CSV 文件。 要导入的数据有一个列名的标题,其中一些列名包含 genfromtxt 认为无效的字符。具体来说,一些名称包含“#”和“”。输入数据无
我的文件是这样的: 1497484825;34425;-4,28,-14;-4,28,-14;-4,28,-14;-4,28,-14;-4,28,-14;-4,28,-14 1497484837;34
使用 Python,我使用 genfromtxt(来自 numpy)将文本文件读入数组: y = np.genfromtxt("1400list.txt", dtype=[('mystring','S
我正在使用以下代码从 CSV 文件中读取大量数据 data = np.genfromtxt(inputfile.name, delimiter=',', dtype=float, names=True
我以为 genfromtxt() 会跳过 skip_header+skiprows,但事实并非如此。如果 skiprows 处于事件状态,则忽略 skip_header。 它们有什么区别? 最佳答案
我正在使用 NumPy 的 genfromtext 从 CSV 文件中获取列。 每一列都需要拆分并分配给单独的 SQLAlchemy SystemRecord 与其他一些列和属性结合并添加到数据库中。
如何加载 csv。当至少一个单元格为空时,将文件放入一个跳过行的数组中?我的 csv 文件很大(超过 1000 行和 14 列): 1;4;3 ;1;3 ;;6 3;4;7 我想跳过第 2 行和第 3
我是一名优秀的程序员,十分优秀!