- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想读取一个 4 行 4 行的文件(它是一个带有 DNA 序列的 fastq 文件)。
当我一行一行或一行两行读取文件时,没有问题,但是当我一次读取 3 或 4 行时,我的代码崩溃了(内核似乎在 jupyter notebook 上死掉了)。 (取消注释最后一部分,或 4 个 getline()
中的任意 3 个。
我尝试使用双字符数组(char**)来存储行,但存在同样的问题。
知道是什么原因吗?
使用 Python 3.7.3、Cython 0.29,更新了所有其他库。正在读取的文件大约为 1.3GB,机器有 8GB,ubuntu 16.04。
代码改编自 https://gist.github.com/pydemo/0b85bd5d1c017f6873422e02aeb9618a
%%cython
from libc.stdio cimport FILE, fopen, fclose, getline
def fastq_reader(early_stop=10):
cdef const char* fname = b'/path/to/file'
cdef FILE* cfile
cfile = fopen(fname, "rb")
cdef:
char * line_0 = NULL
char * line_1 = NULL
char * line_2 = NULL
char * line_3 = NULL
size_t seed = 0
ssize_t length_line
unsigned long long line_nb = 0
while True:
length_line = getline(&line_0, &seed, cfile)
if length_line < 0: break
length_line = getline(&line_1, &seed, cfile)
if length_line < 0: break
# length_line = getline(&line_2, &seed, cfile)
# if length_line < 0: break
# length_line = getline(&line_3, &seed, cfile)
# if length_line < 0: break
line_nb += 4
if line_nb > early_stop:
break
fclose(cfile)
return line_nb
fastq_reader(early_stop=20000)
最佳答案
根本问题是我对 getline()
的误解getline() c reference
要将行存储在不同的变量中,关联的 n
每个行指针都需要*lineptr
.
If *lineptr is set to NULL and *n is set 0 before the call, thengetline() will allocate a buffer for storing the line.
Alternatively, before calling getline(), *lineptr can contain apointer to a malloc(3)-allocated buffer *n bytes in size. If thebuffer is not large enough to hold the line, getline() resizes itwith realloc(3), updating *lineptr and *n as necessary.
n
(或
seed
在我的代码中)将保存为指针分配的缓冲区的大小,其中 getline() 放置传入行。当我为不同的指针设置相同的缓冲区变量时,getline 得到了 char* line_xxx 大小的错误信息。
@read_id_usually_short
CTATACCACCAAGGCTGGAAATTGTAAAACACACCGCCTGACATATCAATAAGGTGTCAAATTCCCTTTTCTCTAGCTTTCGTACT_very_long
+
-///.)/.-/)//-//..-*...-.&%&.--%#(++*/.//////,/*//+(.///..,%&-#&)..,)/.,.._same_length_as_line_2
一两个具有相同缓冲区长度的 getline() 没有错误,因为缓冲区太小并且 getline 增大了指针的大小。
length_line = getline(&line_2, &seed, cfile)
被要求存储长度为 2 ('+\n') 的 char*,同时得到 (
错误信息 ) 指针
line_2
已经足够大(line_1 的大小)。
%%cython
from libc.stdio cimport FILE, fopen, fclose, getline
def fastq_reader(early_stop=10):
cdef const char* fname = b'/path/to/file'
cdef FILE* cfile
cfile = fopen(fname, "rb")
cdef:
char * line_0 = NULL
char * line_1 = NULL
char * line_2 = NULL
char * line_3 = NULL
# One variable for each line pointer
size_t n_0 = 0
size_t n_1 = 0
size_t n_2 = 0
size_t n_3 = 0
ssize_t length_line
unsigned long long line_nb = 0
while True:
# Reading the same file (same cfile), but line_x and n_x by pairs)
length_line = getline(&line_0, &n_0, cfile)
if length_line < 0: break
length_line = getline(&line_1, &n_1, cfile)
if length_line < 0: break
length_line = getline(&line_2, &n_2, cfile)
if length_line < 0: break
length_line = getline(&line_3, &n_3, cfile)
if length_line < 0: break
line_nb += 4
if line_nb > early_stop:
break
fclose(cfile)
return line_nb
fastq_reader(early_stop=20000)
谢谢你指出我的错误。
关于python - 可以在循环内多次使用 getline() 吗? - Cython,文件读取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67257960/
c 不做边界检查。那么cython是如何检查是否编译成c的呢? %%cython --annotate cimport cython @cython.boundscheck(True) cpdef m
可以直接声明用于 Cython 构造函数? 据我了解,这是可能的: # Cython cdef int[3] li = [1, 2, 3] # C++ int[3] li = {1, 2, 3} 但
所以,如果你有一个头文件。 %%file test.h struct mystruct{ int i; int j; }; 然后你将它包装在 Cython 中: cdef extern fr
我正在构建一个独立于平台的 cython 项目,我想根据正在使用的编译器传递编译器参数。我可以猜测基于平台的编译器,或者假设它与用于 Python 的编译器相同,但不能保证匹配。通常我注入(injec
我使用诗歌构建我的 cython 包。我在所有函数和类中都有 NumPy 风格的文档字符串。我现在要做的是添加 Sphinx 自动文档并发布在 Read the Docs。 我已阅读此主题 How d
赛通 libcpp模块包含 priority_queue 的模板,这很好,除了一件事:我不能通过自定义比较器(或者,至少,我不知道如何)。 我需要这个,因为我需要 priority_queue做一个a
以下代码定义了一个简单的 Cython 函数(为方便起见,使用 Ipython 魔法)。 %load_ext cython %%cython def f(float x, float y=2):
我正在尝试使用 cython 进行复数计算。在示例代码中,我想计算复数的复指数函数。问题是我不知道如何将我的整数乘以虚数单位。python的虚数单位1.0j乘以cython执行时报错。 这是我的代码:
在这里停留在一些基本的 Cython 上 - 在 Cython 中定义字符串数组的规范且有效的方法是什么? 具体来说,我想定义一个定长常量数组char . (请注意,此时我不想引入 NumPy。) 在
是否有可能,如果是,如何确定 Cython 中整数数据类型的大小(以位为单位)? 我正在尝试做这样的事情,以获得整数大小: cdef WORD_BITS = 0 IF sizeof(unsigned
我只是想打印 cython 变量的地址,但我无法绕过错误消息: cdef int myvar print &myvar 抛出 Cannot convert 'int *' to Python obje
我有一个 C 头文件,它在宏中定义了一个函数。我需要从 Cython 调用它。有没有办法在 Cython 中使用宏并使其完全扩展?我已经有了 C 类型的参数。 我尝试像使用函数一样使用 cdef,我认
令人惊讶的是,我似乎找不到通过名称获取结构体元素的单个示例(无论是在网络上还是在 cython 示例中)。 所以我收到了一个指向 C 函数结构体的指针,并且想要一一访问这些元素并将它们重新打包到 py
我尝试围绕 C++ 库编写一个 Cython 包装器 http://primesieve.org/ 它包装了一个函数count。到目前为止,它可以正确安装 python setup.py instal
我正在尝试将 cython 模块 data.pyx 导入另一个 cython 模块 user.pyx。一切都编译得很好,但是当我尝试在 python 模块中调用 user.pyx 时,我收到错误“Im
更新:内存 View 获胜。Cython 使用类型化内存 View :0.0253449 特别感谢 lothario,他指出了几个关键的变化。 荒谬。当然现在的问题是,似乎不能对它们做太多算术(加法和
我有一个使用 memoryview 数组的 cython 模块,即... double[:,:] foo 我想使用多处理并行运行这个模块。但是我得到了错误: PicklingError: Can't
我正在尝试使用 Cython 加速 PEP 484 类型的 python 脚本。我想保持一些语义和可读性。 之前,我有一个 Flags = int def difference(f1: Flags,
这个问题已经有答案了: Collapse multiple submodules to one Cython extension (5 个回答) 已关闭 3 年前。 我在一个包中有多个 .py 文件
我已经能够在我的 .pyx 脚本上使用 cython 在 linux 上创建一个 .so 文件。我也可以成功地在我的 python 解释器上进行导入。 我的问题是如何在不使用 cython 的情况下将
我是一名优秀的程序员,十分优秀!