python - 使用 Apache Airflow 执行包含 PySpark 代码的 Databricks Notebook-6ren

python - 使用 Apache Airflow 执行包含 PySpark 代码的 Databricks Notebook

转载作者：行者123 更新时间：2023-12-01 00:48:29

26

4

我正在使用 Airflow、Databricks 和 PySpark。我想知道当我想通过 Airflow 执行 Databricks Notebook 时是否可以添加更多参数。

我用 Python 编写了下一个代码，名为 MyETL:

def main(**kwargs):
      spark.sql("CREATE TABLE {0} {1}".format(table, columns))
      print("Running my ETL!")

    if __name__== "__main__":
      main(arg1, arg2)

我想定义其他任务参数来运行具有更多参数的 Databricks 笔记本，我想添加方法的名称以及这些方法的参数。例如，当我想在 Airflow 的 DAG 中注册任务时:

   notebook_task_params = {
        'new_cluster': new_cluster,
        'notebook_task': {
            'notebook_path': '/Users/airflow@example.com/MyETL',
            'method_name': 'main',
            'params':'[{'table':'A'},{'columns':['a', 'b']}]'
        },
    }

我不知道这是否可能，因为我没有找到类似的例子。

# Example of using the JSON parameter to initialize the operator.
notebook_task = DatabricksSubmitRunOperator(
    task_id='notebook_task',
    dag=dag,
    json=notebook_task_params)

换句话说，我想使用 Airflow 执行带有参数的笔记本。我的问题是我该怎么做？

最佳答案

您也可以将 method_name 添加为 params，然后在笔记本上解析出您的逻辑。

但是，这里更常见的模式是确保该方法已安装在您的集群上。

params = '[{'table':'A'},{'columns':['a', 'b']}]'

然后在 databricks 上的笔记本中:

table = getArgument("table", "DefaultValue")
columns = getArgument("columns", "DefaultValue")

result = method(table, columns)

<小时/>

如果您可以在笔记本作业运行中看到参数(上面附有图像)，您还会知道是否可以通过 getArgument() 访问参数。

关于python - 使用 Apache Airflow 执行包含 PySpark 代码的 Databricks Notebook，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56757281/

26

4

0

文章推荐： jquery - 嵌套排序中的放置事件

文章推荐： JavaScript 日期转 Delphi TDateTime

文章推荐： javascript - 链接 $http.get AngularJS

文章推荐： python - 通过乘法增加特定行，直到列的总和满足条件

jupyter-notebook - Jupyter Notebook "Notebook changed"不断出现
我不断收到以下消息:“自上次打开或保存笔记本文件以来，磁盘上的笔记本文件已更改。您想用此处打开的版本覆盖磁盘上的文件，还是加载磁盘上的版本(重新加载页面) )？”在 Jupyter 笔记本上，即使我没
ipython-notebook - 如何在不启动内核的情况下使用 Ipython Notebook/Jupyter 打开 Notebook？
让我们假设，我想打开一个笔记本(即使用我的本地 Jupyter 实例)，但我不想用它启动关联的内核(即 Python)。我怎样才能做到这一点？可能的用例: 我只想从以前的计算中获得笔记本输出。我不想
jupyter-notebook - 将 ipython notebook 转换为 notebook 时隐藏一些单元格
在将 IPython 笔记本转换为笔记本时，我试图隐藏一些特定的单元格。我想在类里面使用笔记本，并希望从包含问题和答案的主笔记本生成“练习”笔记本。 This post非常有帮助，但由于某种原因，使用
jupyter-notebook - 尝试将 Jupyter Notebook 下载为 PDF 时无法运行 "xelatex .\notebook.tex -quiet"命令
在过去的几个小时里，我一直在试图弄清楚如何将我的 Jupyter Notebook 下载为 pdf。我已经下载了 MiKTeX 并重新安装了 anaconda。下面的完整错误 500内部服务器错误错
jupyter-notebook - 如何将文本文件上传到 ipython notebook
我想要一个完整的文件作为文本文件，而不仅仅是 IPython 笔记本中的一个单元格。我在 IPython notebook 中写了一些代码，现在我想测试它们，所以我尝试将一些文本文件作为原始数据上传
jupyter-notebook - 无法正确打印 jupyter notebook
我在我的办公室电脑上工作，由于安全限制不允许我安装程序(比如 miktex，....)。所以我决定将我的笔记本导出为 .html。如您所见，渲染效果不佳: 一些代码被删减了很多空间被破坏了，有很大
jupyter-notebook - 如何在不打开网络浏览器的情况下从终端编辑 jupyter notebook？
如何在终端中编辑我的 jupyter notebook。我只是不喜欢在网络浏览器中打开 jupyter notebook。我用谷歌搜索，但每个答案都与我们如何直接从终端打开笔记本有关。最佳答案我建
Groovy Notebook 相当于 IPython Notebook
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi
jupyter-notebook - 如何共享 Jupyter Notebook？
我正在使用 Julia，但并不是很喜欢 IDE(更像是一个笔记本电脑)。所以我第一次使用 Jupyter(实验室和笔记本)。我从 Anaconda 启动了 Jupyter 并制作了我的笔记本。问题是
jupyter-notebook - Ipython notebook 不会在命令行上启动
我试图用 ipython notebook 在终端中打开 ipython它不会打开 ipython notebook。它给出了以下错误: | ~/documents/ud120-projects/da
jupyter-notebook - 如何从我的终端启动 jupyter notebook？
尝试从终端启动 jupyter notebook。我目前在正确文件夹中的终端上，并且安装了 python 3.5 和 conda。但它没有启动。最佳答案 Jupyter Notebooks 允许您打
jupyter-notebook - jupyter notebooks 中的持久绘图
我有 plotly plotly 的 jupyter 笔记本不会保留 session 之间的 plotly 。这是在基于官方 jupyter/datascience-notebook docker
jupyter-notebook - Jupyter Notebook - 无法连接到内核
我试过使用 pip3 install jupyter 安装 jupyter notebook。每次我启动一个新的 jupyter notebook 时，notebook 都无法连接到内核。请参阅下面的
jupyter-notebook - jupyter notebook 中的原始单元格是什么
我懂代码，懂 Markdown。我已阅读 this Raw cells article ，但看不出太多。什么是深奥的 NBConvert ? 请投点灯。最佳答案更新的文档位于 https://
jupyter-notebook - Jupyter Notebook:用于保存当前笔记本的命令？
运行代码后，我可以自动将笔记本保存为HTML。但是，有时结果生成速度太快，因此输出HTML在最后一个单元格中没有输出。我想知道是否可以告诉文件进行自我保存？就像是 # In last cell c
ipython-notebook - Jupyter Notebook 扩展加载失败
我在最近安装了 anaconda 的虚拟机中运行 Ubuntu 14.04。我使用 conda 安装了 jupyter 笔记本。我已经按照我可以在网上找到的所有文档来安装笔记本扩展，但它们无法加载并显
ipython-notebook - 使用命令行参数批量执行 iPython Notebook？
我正在使用 nbconvert通过命令行执行 iPython notebook(如 this answer ): ipython nbconvert --to=html --ExecutePrepro
jupyter-notebook - Jupyter Notebook 检查点文件有什么用？
除了原始 Jupyter Notebook 文件(.ipynb 文件)之外，有时我还会得到一个检查点 .ipynb 文件，该文件似乎直接链接到原始。 ipynb 文件。这些检查点文件的用途是什么？
jupyter-notebook - 从远程服务器持续使用 Jupyter Notebook
我使用 ssh -L 连接到远程服务器，但如果我合上笔记本电脑盖子或连接丢失，jupyter 笔记本就会断开连接。重新连接到远程服务器后，“最后一个” session 丢失。如何才能使其持久？sc
jupyter-notebook - 将表情符号代码导入 jupyter notebooks
Jupyter 笔记本支持 Markdown 单元格，但它似乎不支持表情符号代码。我想一种方法可能是使用 html 导入图标，如 fontawesome 有人有解决方法吗？编辑:直接在 jupyte

首页

博学

6Ren·AI

商城

python - 使用 Apache Airflow 执行包含 PySpark 代码的 Databricks Notebook