java - Spark on Java - 在所有工作人员上拥有静态对象的正确方法是什么-6ren

java - Spark on Java - 在所有工作人员上拥有静态对象的正确方法是什么

转载作者：行者123 更新时间：2023-12-02 06:21:25

26

4

我需要在 Spark 中所有执行器的函数中使用不可序列化的第三方类，例如:

JavaRDD<String> resRdd = origRdd
    .flatMap(new FlatMapFunction<String, String>() {
        @Override
        public Iterable<String> call(String t) throws Exception {

        //A DynamoDB mapper I don't want to initialise every time
        DynamoDBMapper mapper = new DynamoDBMapper(new AmazonDynamoDBClient(credentials));

        Set<String> userFav = mapper.load(userDataDocument.class, userId).getFav();

        return userFav;
    }
});

我想要一个静态的 DynamoDBMapper 映射器，我为每个执行器初始化一次并能够反复使用它。

由于它不是可序列化的，因此我无法在驱动器中初始化它并广播它。

注意:这是这里的答案( What is the right way to have a static object on all workers )，但仅适用于 Scala。

最佳答案

您可以使用mapPartition或foreachPartition。这是摘自 Learning Spark 的片段

By using partition- based operations, we can share a connection pool to this database to avoid setting up many connections, and reuse our JSON parser. As Examples 6-10 through 6-12 show, we use the mapPartitions() function, which gives us an iterator of the elements in each partition of the input RDD and expects us to return an iterator of our results.

这允许我们为每个执行程序初始化一个连接，然后根据需要迭代分区中的元素。这对于将数据保存到某些外部数据库或创建昂贵的可重用对象非常有用。

这是一个简单的 scala 示例，摘自链接的书籍。如果需要的话可以将其翻译成java。只是在这里展示 mapPartition 和 foreachPartition 的简单用例。

ipAddressRequestCount.foreachRDD { rdd => rdd.foreachPartition { partition =>
    // Open connection to storage system (e.g. a database connection)
    partition.foreach { item =>
    // Use connection to push item to system
    }
    // Close connection
    } 
}

Here is a link一个java例子。

关于java - Spark on Java - 在所有工作人员上拥有静态对象的正确方法是什么，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35018033/

26

4

0

文章推荐： Java 正则表达式替换为捕获组

文章推荐： java - HTTP 状态 400 错误请求

.net - 人员(手动)测试的代码覆盖率？
是否有用于手动测试的代码覆盖工具？比如我新写了30行代码，编译，然后运行，有什么办法可以快速验证这30行都运行了吗？另外，后来，在我将代码 checkin 正式版本后，有什么方法可以验证测试部门在进
参与 A OR B 的 SQLite 人员
老实说，这是一个家庭作业问题，但我已经浪费了好几个小时，而且无法正确解决。它返回错误数量的结果或错误的数据: 我需要选择参与指导电影和/或在电影中表演的每个人以及他们所做的次数，如果至少 5 次。有
cocoa - 当前收据无效或不匹配的 ds 人员 ID
我正在尝试测试 MacOS 的应用内购买。输入测试用户凭据后，App Store 提示:“当前收据无效或 ds 人员 ID 不匹配。”并且购买失败。最佳答案我尝试了很多方法来解决这个问题。 Get
svn - 如何将 SVN 用户映射到 Jenkins 人员
我正在为 Jenkins 使用 ActiveDirectory 插件，因此用户必须使用他们的凭据登录到 Jenkins。然后用户在 Jenkins 中被称为 joe.doe，这很完美。当同一个人 c
sharepoint-2010 - 如何从 Infopath 人员/组选择器中检索电子邮件地址
如何从 Infopath 人员/组选取器检索电子邮件地址？当我将人员/组选取器添加到 infopath 表单时，我只得到 3 个字段 DisplayName、AccountId、AccountType
cocoa - 用于在 iCal 中显示空闲/忙碌时间的 API(Apple 人员？)
在 Snow Leopard 中，可以在 iCal 事件中显示空闲/忙碌时间。我搜索了 CalStore.framework 的 header ，但找不到任何描述该字段的属性。如何检索日历事件的忙/闲
javascript - SharePoint 2013 JavaScript 从用户(人员)字段获取值(value)
是否有人成功地从专门针对 SharePoint 2013 的新建或编辑表单中获取用户(个人或组)字段的值？我已经尝试了通过搜索互联网找到的所有解决方案以及我自己能想到的所有解决方案，所有结果都为空白
objective-c - 将 Twitter 帐户添加到 ABRecordRef(人员)的最简单方法
所以我需要将一个 Twitter 帐户添加到 ABRecordRef 中。然而，最快的方法似乎是获取社交资料属性的多值引用，创建它的可变版本，查找它是否有 Twitter 条目，如果已经有，则创建
java - 将应用程序从 Tomcat 部署到 Sun Java Web Server 7 时出现问题...我是 .NET 人员 :(
我正在尝试将使用 Tomcat(最初是 5.5，但可以与 7 一起使用)在 MyEclipse 中开发的应用程序部署到我们的演示服务器 (Sun Java Web Server 7)。不幸的是，所有设

首页

博学

6Ren·AI

商城

java - Spark on Java - 在所有工作人员上拥有静态对象的正确方法是什么