gpt4 book ai didi

python - Python 如何以及何时确定变量的数据类型?

转载 作者:太空狗 更新时间:2023-10-29 21:08:01 26 4
gpt4 key购买 nike

我试图弄清楚 Python 3(使用 CPython 作为解释器)是如何执行它的程序的。我发现步骤是:

  1. CPython 编译器将 Python 源代码(.py 文件)编译为 Python 字节码(.pyc)文件。在导入任何模块的情况下,.pyc 文件会被保存,在一个 main.py Python 脚本运行的情况下,它们不会被保存。

  2. Python 虚拟机将字节码解释为硬件特定的机器码。

在这里找到了一个很好的答案 https://stackoverflow.com/a/1732383/8640077说 Python 虚拟机与 JVM 相比需要更长的时间来运行其字节码,因为 java 字节码包含有关数据类型的信息,而 Python 虚拟机逐行解释并必须确定数据类型。

我的问题是 Python 虚拟机如何确定数据类型,它是在解释机器代码期间还是在单独的进程(例如,会产生另一个中间代码)期间发生?

最佳答案

CPython 的动态运行时分派(dispatch)(与 Java 的静态编译时分派(dispatch)相比)只是 Java 比纯 CPython 更快的原因之一:Java 中有 jit-compilation,不同的垃圾回收策略、原生类型(如 intdouble 与 CPython 中的不可变数据结构等)的存在。

我之前的superficial experiments已经表明,动态调度只负责大约 30% 的运行 - 你无法用它来解释某些数量级的速度差异。

为了让这个答案不那么抽象,让我们看一个例子:

def add(x,y):
return x+y

查看字节码:

import dis
dis.dis(add)

给出:

2         0 LOAD_FAST                0 (x)
2 LOAD_FAST 1 (y)
4 BINARY_ADD
6 RETURN_VALUE

我们可以看到在字节码级别上,xy 是整数、 float 还是其他东西没有区别——解释器不关心。

在 Java 中情况完全不同:

int add(int x, int y) {return x+y;}

float add(float x, float y) {return x+y;}

会导致完全不同的操作码,调用调度会在编译时发生——根据编译时已知的静态类型选择正确的版本。

CPython 解释器通常不需要知道参数的确切类型:在内部有一个基本的“类/接口(interface)”(显然 C 中没有类,所以它被称为“协议(protocol)”,但对于某些人来说谁知道 C++/Java“接口(interface)”可能是正确的心智模型),所有其他“类”都是从中派生的。这个基“类”称为 PyObjecthere is the description of its protocol. .因此,只要该函数是此协议(protocol)/接口(interface)的一部分,CPython 解释器就可以调用它,而无需知道确切的类型,并且调用将被分派(dispatch)到正确的实现(很像 C++ 中的“虚拟”函数)。

在纯 Python 方面,变量似乎没有类型:

a=1
a="1"

然而,在内部 a 有一个类型 - 它是 PyObject* 并且这个引用可以绑定(bind)到一个整数 (1) 并且一个 unicode 字符串 ("1") - 因为它们都从 PyObject“继承”。

CPython 解释器有时会尝试找出引用的正确类型,对于上面的示例也是如此 - 当它看到 BINARY_ADD-opcode 时,following C-code被执行:

    case TARGET(BINARY_ADD): {
PyObject *right = POP();
PyObject *left = TOP();
PyObject *sum;
...
if (PyUnicode_CheckExact(left) &&
PyUnicode_CheckExact(right)) {
sum = unicode_concatenate(left, right, f, next_instr);
/* unicode_concatenate consumed the ref to left */
}
else {
sum = PyNumber_Add(left, right);
Py_DECREF(left);
}
Py_DECREF(right);
SET_TOP(sum);
if (sum == NULL)
goto error;
DISPATCH();
}

此处解释器查询,两个对象是否都是 unicode 字符串,如果是这种情况,则使用一种特殊方法(可能更有效,事实上它会尝试就地更改不可变的 unicode 对象,请参阅 SO-answer ) 被使用,否则工作被分派(dispatch)到 PyNumber-protocol。

显然,解释器还必须知道创建对象时的确切类型,例如 a="1"a=1 不同的“类”被使用 - 但正如我们所见,它不是唯一的一个地方。

因此解释器会在运行时干预类型,但大多数时候它不必这样做 - 可以通过动态调度达到目标。

关于python - Python 如何以及何时确定变量的数据类型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53449112/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com