gpt4 book ai didi

python - 如何编写能够返回 Python 迭代器对象的(Python 模块的)C 代码?

转载 作者:太空宇宙 更新时间:2023-11-03 23:19:48 25 4
gpt4 key购买 nike

在我用 C++ ( see here ) 成功编写了一个简约的 Python3.6 扩展模块后,我计划提供一个 Python 模块,它与以下 Python 函数 iterUniqueCombos() :

def iterUniqueCombos(lstOfSortableItems, sizeOfCombo):
lstOfSortedItems = sorted(lstOfSortableItems)
sizeOfList = len(lstOfSortedItems)

lstComboCandidate = []

def idxNextUnique(idxItemOfList):
idxNextUniqueCandidate = idxItemOfList + 1

while (
idxNextUniqueCandidate < sizeOfList
and
lstOfSortedItems[idxNextUniqueCandidate] == lstOfSortedItems[idxItemOfList]
): # while
idxNextUniqueCandidate += 1

idxNextUnique = idxNextUniqueCandidate

return idxNextUnique

def combinate(idxItemOfList):
if len(lstComboCandidate) == sizeOfCombo:
yield tuple(lstComboCandidate)
elif sizeOfList - idxItemOfList >= sizeOfCombo - len(lstComboCandidate):
lstComboCandidate.append(lstOfSortedItems[idxItemOfList])
yield from combinate(idxItemOfList + 1)
lstComboCandidate.pop()
yield from combinate(idxNextUnique(idxItemOfList))

yield from combinate(0)

我对 Python 和 C++ 编程有一些基本的了解,但完全不知道如何将 Python 的 yield“翻译”成 Python 扩展模块的 C++ 代码。所以我的问题是:

How to write C++ code (of a Python module) able to return a Python iterator object?

欢迎任何让我开始的提示。

更新(状态 2017-05-07):

评论:yield 没有 C++ 等价物。我将从在 Python 中手动实现迭代器协议(protocol)开始,以摆脱 yield 和 yield from 心态。 – user2357112 4 月 26 日 1:16danny 的回答中的提示 这个问题的答案与询问“如何在不使用 yield 的情况下实现迭代器”相同' 但在 C++ 扩展而不是纯 Python 中。 通过重写算法代码以消除 yield 并通过编写 C-从头开始编写 Python 扩展模块的代码(导致大量 Segmentation Fault 错误)。

The state-of-the-art of my current knowledge on the subject of the question is that using Cython it is possible to translate the above Python code (which is using yield) directly into C code of a Python extension module.

这不仅可以直接使用 Python 代码(无需重写任何东西),而且可以提高 Cython 使用 yield 算法创建的扩展模块的速度> 运行速度至少是使用 __iter____next__ 重写算法从迭代器类创建的扩展模块的两倍(后者在没有特定于 Cython 的情况下有效速度优化代码已添加到 Python 脚本)

最佳答案

这更多是对你的问题编辑的回应而不是完整的答案 - 我同意 Danny 的回答的要点,你需要在一个带有 __next__/next 的类中实现它 方法(取决于 Python 的版本)。在您的编辑中,您断言它一定是可能的,因为 Cython 可以做到。我认为值得看看 Cython 究竟是如何做到的。

从一个基本示例开始(之所以选择它是因为它有一些不同的 yield 语句和一个循环):

def basic_iter(n):
a = 0
b = 5
yield a
a+=3
yield b
b+=2

for i in range(n):
yield a+b+n
a = b+1
b*=2
yield 50

Cython 做的第一件事是定义一个 __pyx_CoroutineObject C 类,其中包含一个 __Pyx_Generator_Next 方法,该方法实现了 __next__/next__pyx_CoroutineObject 的一些相关属性:

  • body - 实现您定义的逻辑的 C 函数指针。
  • resume_label - 一个整数,用于记住您在 body
  • 定义的函数中的进度
  • closure - 自定义创建的 C 类,用于存储 body 中使用的所有变量。

以一种稍微迂回的方式,__Pyx_Generator_Next 调用 body 属性,它是您定义的 Python 代码的翻译。

然后让我们看看分配给 body 的函数是如何工作的 - 在我的例子中称为 __pyx_gb_5iters_2generator。它做的第一件事是使用 resume_label 跳转到右边的 yield 语句:

switch (__pyx_generator->resume_label) {
case 0: goto __pyx_L3_first_run;
case 1: goto __pyx_L4_resume_from_yield;
case 2: goto __pyx_L5_resume_from_yield;
case 3: goto __pyx_L8_resume_from_yield;
case 4: goto __pyx_L9_resume_from_yield;
default: /* CPython raises the right error here */
__Pyx_RefNannyFinishContext();
return NULL;
}

任何变量赋值都是通过闭包结构完成的(本地命名为__pyx_cur_scope:

/*     a = 0             # <<<<<<<<<<<<<< */
__pyx_cur_scope->__pyx_v_a = __pyx_int_0

yield 设置 resume_label 并返回(使用 resume_label 允许您下次直接跳回):

__pyx_generator->resume_label = 1;
return __pyx_r;

循环稍微复杂一些,但基本相同 - 它使用 goto 跳转到 C 循环(这是合法的)。

最后,一旦到达结尾,它就会引发一个 StopIteration 错误:

PyErr_SetNone(PyExc_StopIteration);

总而言之,Cython 完全按照建议您去做:它使用 __next__next 方法定义了一个类,并使用该类来跟踪状态。因为它是自动化的,所以它非常擅长跟踪引用计数,从而避免您遇到的 Segmentation Fault 错误。使用 goto 返回到先前的执行点是高效的,但需要小心。

我明白为什么用单个 __next__/next 函数重写 C 中的生成器函数是没有吸引力的,而 Cython 显然提供了一种直接的方法,无需自己编写 C,但它不使用任何特殊技术在您已被告知的内容之上进行翻译。

关于python - 如何编写能够返回 Python 迭代器对象的(Python 模块的)C 代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43623174/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com