java - 为什么SparkSession一个action执行两次？-6ren

java - 为什么SparkSession一个action执行两次？

转载作者：塔克拉玛干更新时间：2023-11-01 22:40:52

25

4

最近升级到 Spark 2.0，我在尝试从 JSON 字符串创建简单数据集时看到了一些奇怪的行为。这是一个简单的测试用例:

 SparkSession spark = SparkSession.builder().appName("test").master("local[1]").getOrCreate();
 JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());

 JavaRDD<String> rdd = sc.parallelize(Arrays.asList(
            "{\"name\":\"tom\",\"title\":\"engineer\",\"roles\":[\"designer\",\"developer\"]}",
            "{\"name\":\"jack\",\"title\":\"cto\",\"roles\":[\"designer\",\"manager\"]}"
         ));

 JavaRDD<String> mappedRdd = rdd.map(json -> {
     System.out.println("mapping json: " + json);
     return json;
 });

 Dataset<Row> data = spark.read().json(mappedRdd);
 data.show();

输出:

mapping json: {"name":"tom","title":"engineer","roles":["designer","developer"]}
mapping json: {"name":"jack","title":"cto","roles":["designer","manager"]}
mapping json: {"name":"tom","title":"engineer","roles":["designer","developer"]}
mapping json: {"name":"jack","title":"cto","roles":["designer","manager"]}
+----+--------------------+--------+
|name|               roles|   title|
+----+--------------------+--------+
| tom|[designer, develo...|engineer|
|jack| [designer, manager]|     cto|
+----+--------------------+--------+

即使我只执行一个操作，“ map ”功能似乎被执行了两次。我原以为 Spark 会懒惰地构建一个执行计划，然后在需要时执行它，但这看起来似乎要以 JSON 格式读取数据并对其执行任何操作，该计划必须至少执行两次。

在这种简单的情况下无所谓，但是当map函数长时间运行时，这就成了一个大问题。这是正确的，还是我遗漏了什么？

最佳答案

发生这种情况是因为您没有为 DataFrameReader 提供架构。因此，Spark 必须急切地扫描数据集以推断输出模式。

由于 mappedRdd 没有被缓存，它将被计算两次:

一次用于模式推断
调用data.show时一次

如果你想阻止你应该为阅读器提供模式(Scala 语法):

val schema: org.apache.spark.sql.types.StructType = ???
spark.read.schema(schema).json(mappedRdd)

关于java - 为什么SparkSession一个action执行两次？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38924623/

25

4

0

文章推荐： java - 如何对字符串中的字母进行计数和排序

文章推荐： java - 检查分组分隔符是否为空格

文章推荐： java - 将长值设为日期并在 Thymeleaf 中格式化

javascript - EmberJS Action - 当包装在 `actions` 中时从另一个 Action 调用一个 Action
当包裹在 EmberJS Controller 的 actions 中时，如何从另一个 Action 调用一个 Action ？使用现已弃用的方式定义操作的原始代码: //app.js App.In
Github Action -完成一个 Action 后触发另一个 Action
我有一个 Action (一个yaml文件)，用于将docker镜像部署到Google Cloud Run。我希望收到通知构建和推送结果的Slack或电子邮件。构建操作完成后，如何触发消息操作？
java - Action 类中的tick(Action action)是什么？
Selenium 的 actions 类中存在的 tick(Action action) 和 tick(Interaction...actions) 方法的用途是什么？是否与点击任何 webElem
actions-on-google - 对话 Action 2023 年日落 : Migrating from conversational actions to Smart Home Actions
简短的背景故事我们目前为数百名用户提供对话操作。我们在过去三年中为我们的一位客户开发了这个 Action 作为“工作”。正如我们最近发现的那样，我们会受到对话行为的影响。当然，我们现在正在研究如何
uml - 在事件图中，由于一个 Action 包含在另一个 Action 中，是否可以 fork 成两个 Action 但在加入时只有一个 Action ？
考虑系统用户可以并发方式执行两个操作，第一个操作 (A1) 仅对用户的订单执行，第二个操作 (A2) 包括在执行时执行 (A1)，如下面的使用所述-案例图..((考虑A1完全执行U1，A2完全执行U2
android - Action 项目系统地堆叠在 Action 溢出中，在 Action 栏中
我正在为 android 中的 ActionBar 而苦苦挣扎。这是我的问题:我的操作项没有显示在操作栏中，而是堆叠在操作溢出中，无论我做什么.. 我花了一天的时间寻找解决方案，但我似乎找不到缺少的
github-actions - 如何将 Action 的输出用作 Github Action 工作流程的 if 条件中的表达式？
我正在构建一个工作流，其中一个操作为工作流中的一个步骤提供条件。我该如何使用这个值？该操作的值为空，因此计算结果为 false，并且从未部署过任何内容... jobs: build: s
redux - 像显示/隐藏加载屏幕这样的 Action 应该由相关 Action 的reducer处理还是由 Action 创建者自己生成？
鉴于您有一些全局 View (例如，显示加载屏幕)，您可能希望在许多情况下发生这种情况，为该行为创建一个 Action 创建者/ Action 对还是为相关 Action 创建 reducer 更合适
actions-on-google - Actions on Google 启动自定义操作(不是主要的 actions.intent.MAIN)
我有一个使用 DialogFlow 构建的 Actions on Google 代理，其中包含多个操作(例如 actions.intent.MAIN 和 get_day_of_week)。当我在 3
github-actions - 如何从 GitHub Action 的 action.yml 文件中引用其他操作？
是否可以从我的 action.yml 文件中引用另一个 GitHub 操作？请注意，我在这里谈论的是操作，而不是工作流程。我知道这可以通过工作流来完成，但是操作可以引用其他操作吗？最佳答案答案似
javascript - 如何从一个 Action 派发另一个 Action 并在 Vuex 中派发另一个 Action
在 Vuex 操作中，我们有以下实现。 async actionA({ commit, dispatch }) { const data = this.$axios.$get(`/apiUrl`)
java - 正在调用 struts.xml 中定义的 Action ，但未调用 Action 包中存在的 Action
我正在将我的应用程序服务器从 Jboss 4.2 迁移到 7.1。我在 Struts 配置中收到以下错误。 struts.xml 中定义的 Action 被调用，而 Action 包中的操作未被调用。
java - 将 Action 重定向(使用拦截器)到其他 Action 时无法执行 Struts2 Action
我向 ActLand 发送请求，然后 intercept()，如果没有登录则重定向到 Login.jsp。 struts.xml:
javascript - Action 创建者是否有必要返回 Action ？
我有一个 Action 创建器，它接受一个 id 和一个回调函数。它向服务器发送请求以执行某些操作并返回一个虚拟操作。我在这里想做的就是调用回调函数并退出，因为该虚拟操作对我来说没有用处，例如喜欢帖子
c# - Action 链接到子 Action
我已经使用 Html.Action 方法调用了另一个 View 。当用户单击操作链接时，我想在 subview 内使用参数调用相同的操作。当我写这段代码时，我得到了这个错误信息: Html.Acti
c# - Action<> 与事件 Action
是 public event Action delt = () => { Console.WriteLine("Information"); }; 的重载版本 Action delg = (a, b)
java从另一个 Action 调用 Action
countresultsfrom.addActionListener(new ActionListener() { public void actionPerforme
c# - Action 是什么意思？
我刚刚看到一个 brand-new video在 Rx 框架上，一个特别的签名引起了我的注意: Scheduler.schedule(this IScheduler, Action) 在 23:55，
actions-on-google - Google Action 和 DialogFlow 错误 "Sorry, this action is not available for your app"
我创建了一个在我的开发者帐户中完美运行的 DialogFlow 应用程序。但我需要以另一个用户的身份对其进行测试，因此在我的 Google Action 模拟器中，我添加了另一个测试帐户作为项目的所
java - 如何在 Action 链调用上的另一个 Action 类之后访问 Jsp 中的一个 Action 类 ActionMessages
我正在尝试实现消息存储拦截器以在我的 JSp 上显示 ActionMessage，但无法访问 ActionMessage。有人可以提供一个链接如何实现消息存储拦截器吗？最佳答案这是我的一个应用程序

首页

博学

6Ren·AI

商城

java - 为什么SparkSession一个action执行两次？