- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
在 pyspark 1.6.2 中,我可以通过
导入col
函数
from pyspark.sql.functions import col
但是当我尝试在 Github source code 中查找时我在 functions.py
文件中找不到 col
函数,python如何导入不存在的函数?
最佳答案
它存在。它只是没有明确定义。从 pyspark.sql.functions
导出的函数是 JVM 代码的精简包装器,除了少数需要特殊处理的异常(exception)情况外,它们是使用辅助方法自动生成的。
如果你仔细检查出处you'll find col
listed among other _functions
.这本词典是further iterated和 _create_function
用于生成包装器。每个生成的函数都直接分配给globals
中对应的名称。
最后__all__
,它定义了从模块中导出的项目列表,只导出了所有的globals
,不包括包含在黑名单中的那些。
如果这个机制仍然不清楚,您可以创建一个玩具示例:
创建名为 foo.py
的 Python 模块,其内容如下:
# Creates a function assigned to the name foo
globals()["foo"] = lambda x: "foo {0}".format(x)
# Exports all entries from globals which start with foo
__all__ = [x for x in globals() if x.startswith("foo")]
将它放在 Python 路径的某个位置(例如在工作目录中)。
导入foo
:
from foo import foo
foo(1)
这种元编程方法的一个不良副作用是,纯粹依赖于静态代码分析的工具可能无法识别定义的函数。这不是一个关键问题,可以在开发过程中安全地忽略。
取决于安装的 IDE type annotations可能会解决问题(参见示例 zero323/pyspark-stubs#172)。
关于python - 在 pyspark 中找不到 col 函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40163106/
我正在尝试在 Windows 上运行的小于 1GB 的 VM 上设置 YouTrack 和 TeamCity。使用率将非常低(用户和请求)。这是一个 POC 环境,如果它有效,我可能会将它推送到一个超
所以我在尝试使用 FORFILES 解决这个问题时遇到了麻烦。我正在尝试获取不超过 4 天的文件。所以基本上少于 4 天。然而,这似乎不太可能,因为/d -4 获取所有 4 天或更早的项目。 以下是我
如何从下面的 events 表中选择小于 15 分钟前创建的 events? CREATE TABLE events ( created_at timestamp NOT NULL DEFAU
Google Analytics Realtime提供 rt:minutesAgo ,可以过滤查询。 然而,它是一个维度而不是一个度量标准,<=不能在过滤器中使用。 假设我想在最后 n 分钟内获得一些
iOS 核心数据 - 严重的应用程序错误 - 尝试插入 nil 你好, 我的应用程序实际上运行稳定,但在极少数情况下它会崩溃并显示此错误消息... 2019-04-02 20:48:52.437172
我想制作一个 html div 以快速向右移动(例如不到 1 秒)并消失。然后1秒后再次直接出现在这个过程最开始div的位置。此过程将由单击按钮并重复 10 次触发。 我试图在 CSS 中使用过渡属性
我发现使用 TimeTrigger 是 Windows 10 (UWP) 上计划后台任务的方式。但是看起来我们需要给出的最小数字是 15 分钟。只是想知道,即使我们安排它在接下来的 1 分钟内运行,警
我必须在 1 秒内在屏幕上打印 2^20 行整数 printf 不够快,还有其他易于使用的快速输出替代方法吗? 每一行只包含 1 个整数。 我要求它用于竞争性编程问题,我必须将其源代码提交给法官。 最
我是一名优秀的程序员,十分优秀!