mongodb - Spark - 如何在 map() 中创建新的 RDD？ (执行者的 SparkContext 为空)-6ren

mongodb - Spark - 如何在 map() 中创建新的 RDD？ (执行者的 SparkContext 为空)

转载作者：可可西里更新时间：2023-11-01 10:02:47

24

4

我有以下应用程序，它通过 MongoDB Spark 连接器使用到 MongoDB 的连接。我的代码崩溃是因为执行程序的 SparkContext 为空。基本上我从 MongoDB 读取数据，处理这些数据，这会导致需要发送到 MongoDB 的额外查询。最后一步是保存这些额外查询的数据。我使用的代码:

    JavaMongoRDD<Document> rdd = MongoSpark.load(sc);
    JavaMongoRDD<Document> aggregatedRdd = rdd.withPipeline(...);
    JavaPairRDD<String, Document> pairRdd = aggregatedRdd
            .mapToPair((document) -> new Tuple2(document.get("_id"), document));
    JavaPairRDD<String, List<Document>> mergedRdd = pairRdd.aggregateByKey(new LinkedList<Document>(),
            combineFunction, mergeFunction);

    JavaRDD<Tuple2<String, List<Tuple2<Date, Date>>>> dateRdd = mergedRdd.map(...);

    //at this point dateRdd contains key/value pairs of:
    //Key: a MongoDB document ID (String)
    //Value: List of Tuple<Date, Date> which are date ranges (start time and end time). 

    //For each of that date ranges I want to retrieve the data out of MongoDB
    //and, for now, I just want to save that data

    dateRdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String, List<Tuple2<Date, Date>>>>>() {
        @Override
        public void call(Iterator<Tuple2<String, List<Tuple2<Date, Date>>>> partitionIterator) throws Exception {
            for (; partitionIterator.hasNext(); ) {
                Tuple2<String, List<Tuple2<Date, Date>>> tuple = partitionIterator.next();
                String fileName = tuple._1;
                List<Tuple2<Date, Date>> dateRanges = tuple._2;

                for (Tuple2<Date, Date> dateRange : dateRanges) {
                    Date startDate = dateRange._1;
                    Date endDate = dateRange._2;

                    Document aggregationDoc = Document.parse("{ $match: { ts: {$lt: new Date(" + startDate.getTime()
                            + "), $gt: new Date(" + endDate.getTime() + ")}, root_document: \"" + fileName
                            + "\", signals: { $elemMatch: { signal: \"SomeValue\" } } } }");


                    //this call will use the initial MongoSpark rdd with the aggregation pipeline that just got created.
                    //this will get sent to MongoDB 
                    JavaMongoRDD<Document> filteredSignalRdd = rdd.withPipeline(Arrays.asList(aggregationDoc));

                    String outputFileName = String.format("output_data_%s_%d-%d", fileName,
                            startDate.getTime(), endDate.getTime());
                    filteredSignalRdd.saveAsTextFile(outputFileName);
                }
            }
        }
    });

我得到的异常是:

Job aborted due to stage failure: Task 23 in stage 2.0 failed 4 times, most recent failure: Lost task 23.3 in stage 2.0 (TID 501, hadoopb24): java.lang.IllegalArgumentException: requirement failed: RDD transformation requires a non-null SparkContext.
Unfortunately SparkContext in this MongoRDD is null.
This can happen after MongoRDD has been deserialized.
SparkContext is not Serializable, therefore it deserializes to null.
RDD transformations are not allowed inside lambdas used in other RDD transformations.
    at scala.Predef$.require(Predef.scala:233)
    at com.mongodb.spark.rdd.MongoRDD.checkSparkContext(MongoRDD.scala:170)
    at com.mongodb.spark.rdd.MongoRDD.copy(MongoRDD.scala:126)
    at com.mongodb.spark.rdd.MongoRDD.withPipeline(MongoRDD.scala:116)
    at com.mongodb.spark.rdd.api.java.JavaMongoRDD.withPipeline(JavaMongoRDD.scala:46)

下图说明了我对我的应用程序的期望:

这里的问题是什么，我怎样才能实现这种“嵌套”、异步创建新的 RDD？

如何访问执行程序中的 MongoSpark“上下文”？ MongoSpark 库需要访问 SparkContext，这在执行程序中不可用。

我是否需要再次将所有数据带给驱动程序，然后让驱动程序向 MongoSpark“上下文”发出新的调用？我可以看到这可能是如何工作的，但这需要异步完成，即每当分区完成处理数据并具有 <String, Tuple<Date,Date>> 时。准备好，将其推送给驱动程序，让他开始新的查询。如何才能做到这一点？

最佳答案

这是预料之中的，不会改变。 Spark 不支持:

嵌套 RDD。
嵌套转换。
嵌套操作。
从操作/转换访问上下文或 session 。

在这种情况下，您可能可以使用标准的 Mongo 客户端。

关于mongodb - Spark - 如何在 map() 中创建新的 RDD？ (执行者的 SparkContext 为空)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40550582/

24

4

0

文章推荐： mongodb - 我如何使用 like 运算符在 mongodb 中查询

文章推荐： windows - 如何找到正在运行的计划任务的进程ID？

文章推荐： windows - Azure ML Workbench 在 Windows 10 Enterprise 上安装失败

c++ - 如何遍历 vector 图的 map map map map map map map vector
我正在尝试从一个 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 m
function - map map vs map.map
我是 Haskell 的新手，我认为函数 map map和 map.map在 Haskell 中是一样的。我的终端给了我两种不同的类型， (map.map) :: (a -> b) -> [[a]
java - Map of maps - 如何将内部 map 保留为 map ？
我的目标是创建一个 map 的 map ，这样我就可以通过它的键检索外部 map 的信息，然后通过它们的键访问它的“内部” map 。但是，当我得到每个内部映射时，我最初创建的映射变成了一个对象，我
java - map 的 map 根据内部 map 值获取外部 map
如何使用 Java8 编写以下代码？ for (Entry> entry : data.entrySet()) { Map value = entry.getValue(); if (valu
map - 如何为 map 叠加层准确制作 map
我有覆盖整个南非的图片。它们为Tiff格式，并已将坐标嵌入其中。我正在尝试拍摄这些图像（大约20张图像），并将它们用作我的iPhone应用程序中的地图叠加层。我的问题在于（准确地）将地图切成图块。我
c++ - 如何从一个 map 键列表中减去另一个 map 键列表并获得新 map ( map A - mab B = map C)
所以我有 2 std::map s >一个是“旧的”，一个是“新的”，我想知道哪些文件被删除了，这样就能够遍历差异并对 shared_ptr 做一些事情。这样的事情可能吗？如何做到？最佳答案虽然
google-maps - 将 google.maps.Map 转换为静态 map 链接
是否可以将当前查看的 google.maps.Map 转换为静态图像链接，以便我可以获取图像并将其嵌入到 PDF 中？我在 map 上添加了一些带有自定义图标的标记，所以我不确定这是否真的可行。如
java - 如何将 map 的 map 列表合并为 map 的 map ？
你能帮我吗 Java Streams ？从标题可以看出我需要合并List>>进入Map> . 列表表示为List>>看起来像: [ { "USER_1":{
java - Collection.shuffle 不适用于 Map 键和 Map 值。我有一张 map 中的 map 。我想打乱最里面的 map
对于 idAndTags 的第二个条目，内部映射被打乱，但第一个条目则不然第一次接近! for (Map.Entry> entryOne : idAndTags.entrySet()) {
map - 如何在定义整个 map 之前引用 map 中的变量？
我将从我的代码开始，因为它应该更容易理解我想要做什么: @function get-color($color, $lightness) { @return map-get(map-get($col
google-maps - Google map 窗口仅显示部分 map
我过去曾在许多网站上使用过 Google map ，但遇到了以前从未遇到过的问题。 map 窗口正在显示，但它只显示左上角的 map 片段，以及之后的任何内容(即使我在周围导航时)，右侧也不会加载任何
google-maps - 中国 map - 卫星 map 和默认街道 map 哪个是正确的？这是否意味着地理编码结果是错误的？
众所周知，这些 map ，无论是常规街道 map 还是卫星 map ，在中国的特定地区都无法正确排列。那么哪个 map 排列正确，是卫星 map 还是默认街道 map ？一些网站表明卫星 map 是正
maps - 如何在此处 map 中拖动 map 后获取边界
在拖尾事件之后，我面临着获取此处 map 中的 map 边界的问题。我需要新的经纬度来在新更改的视口(viewport)中获取一些项目/点。我只是想在拖动结束时获得谷歌地图map.getBounds(
bing-maps - Bing map - 英国邮政编码到 map
我想做的是通过 ajax API 显示以英国邮政编码为中心的小型 bing 生成 map 。我相信这是可能的；我在 Bing map 文档中找不到如何将英国邮政编码转换为可以插入 map Ajax 控
java - 如何将列表转换为 map 的 map Map>
我有一个 List我想转换成的 e Map>其中外部字符串应为“Name”，内部字符串应为“Domain”。 Name Id Domain e(0) - Emp1, 1, Insuran
C++ : filling map of maps via map instance allocation from a vector of maps
我的第 2 部分:https://stackoverflow.com/questions/21780627/c-map-of-maps-typedef-doubts-queries 然后我继续创建 I
带有总和的 Map of Map 的 Java8 Map
是否可以在 1 行中使用 Java8 编写以下所有 null 和空字符串检查？ Map> data = new HashMap<>(holdings.rowMap()); Set>> entrySet
java - 重构 Java Map of Map of Map
我正在审查一个项目的旧代码，并使用 Map 的 Map 的 Map 获得了如下数据结构(3 层 map ): // data structure Map>>> tagTree
java - 如何正确地延迟初始化 Map of Map 的 Map？
这可能是一种不好的做法，但我还没有找到更好的解决方案来解决我的问题。所以我有这张 map // Map>> private Map>> properties; 我想初始化它，这样我就不会得到 Null
Java 为什么 Map of Map (ex : Map>) 不可序列化
我们在 JDK 1.7 中使用 HashMap，我在使用 SonarQube 进行代码审查时遇到了一些问题。请考虑以下示例: public class SerializationTest imple

首页

博学

6Ren·AI

商城

mongodb - Spark - 如何在 map() 中创建新的 RDD？ (执行者的 SparkContext 为空)