gpt4 book ai didi

python - 如何在pyspark作业中为事件中心添加conf

转载 作者:行者123 更新时间:2023-12-01 06:20:53 24 4
gpt4 key购买 nike

我有一个pyspark作业,该作业使用事件中心将数据推送到azure data lake。但是我无法在event hubs作业中包含pyspark的配置,因为没有相同的库。

以下是示例pyspark作业:

from pyspark.sql.functions import lit
import pyspark.sql.functions as f
from pyspark.sql.functions import UserDefinedFunction,regexp_replace,col
import json
from pyspark.sql import types as T
from pyspark.sql.functions import to_json, struct, when
import time
import logging
import sys
from datetime import datetime
import pytz
from datetime import datetime, timedelta
from pyspark import SparkContext, SparkConf
from pyspark.sql.types import StructType, ArrayType, StructField, IntegerType, StringType, FloatType, DoubleType


conf = SparkConf().setAppName("sample1")
sc = SparkContext(conf=conf)
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("sample1").getOrCreate()


......logic of the job



# event hubs
# **ehWriteConf included topic name and connection
DF.select("body").write.format("eventhubs").options(**ehWriteConf).save()


我正在使用 spark-submit运行我的工作,但在事件中心线遇到错误。

我的Spark版本是2.11

最佳答案

您可以在提交conf作业时指定pyspark,如下所示:

spark-submit --packages com.microsoft.azure:azure-eventhubs-spark_2.11:2.3.1 your_job_name.py



将此用作参考 https://github.com/Azure/azure-event-hubs-spark/blob/master/docs/structured-streaming-eventhubs-integration.md

关于python - 如何在pyspark作业中为事件中心添加conf,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60365522/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com