- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在使用 Spark 应用程序和 Mongos 控制台运行相同的聚合管道。在控制台上,数据在眨眼间获取,只需第二次使用“它”即可检索所有预期数据。然而,根据 Spark WebUI,Spark 应用程序需要将近两分钟的时间。
如您所见,正在启动 242 个任务来获取结果。我不确定为什么在 MongoDB 聚合仅返回 40 个文档时启动了如此大量的任务。看起来开销很大。
我在 Mongos 控制台上运行的查询:
db.data.aggregate([
{
$match:{
signals:{
$elemMatch:{
signal:"SomeSignal",
value:{
$gt:0,
$lte:100
}
}
}
}
},
{
$group:{
_id:"$root_document",
firstTimestamp:{
$min:"$ts"
},
lastTimestamp:{
$max:"$ts"
},
count:{
$sum:1
}
}
}
])
Spark 应用程序代码
JavaMongoRDD<Document> rdd = MongoSpark.load(sc);
JavaMongoRDD<Document> aggregatedRdd = rdd.withPipeline(Arrays.asList(
Document.parse(
"{ $match: { signals: { $elemMatch: { signal: \"SomeSignal\", value: { $gt: 0, $lte: 100 } } } } }"),
Document.parse(
"{ $group : { _id : \"$root_document\", firstTimestamp: { $min: \"$ts\"}, lastTimestamp: { $max: \"$ts\"} , count: { $sum: 1 } } }")));
JavaRDD<String> outputRdd = aggregatedRdd.map(new Function<Document, String>() {
@Override
public String call(Document arg0) throws Exception {
String output = String.format("%s;%s;%s;%s", arg0.get("_id").toString(),
arg0.get("firstTimestamp").toString(), arg0.get("lastTimestamp").toString(),
arg0.get("count").toString());
return output;
}
});
outputRdd.saveAsTextFile("/user/spark/output");
之后,我使用 hdfs dfs -getmerge/user/spark/output/output.csv
并比较结果。
为什么聚合这么慢?调用 withPipeline
不是为了减少需要传输到 Spark 的数据量吗?看起来它并没有像 Mongos 控制台那样进行聚合。在 Mongos 控制台上,它运行得非常快。我正在使用 Spark 1.6.1 和 mongo-spark-connector_2.10 版本 1.1.0。
编辑:我想知道的另一件事是启动了两个执行程序(因为我使用的是默认执行设置 atm),但只有一个执行程序完成所有工作。为什么第二个执行者不做任何工作?
编辑 2:当使用不同的聚合管道并调用 .count()
而不是 saveAsTextFile(..)
时,还会创建 242 个任务。这次将返回 65,000 份文件。
最佳答案
大量任务是由默认的 Mongo Spark 分区程序策略引起的。它在计算分区时忽略了聚合管道,主要原因有两个:
但是,正如您所发现的那样,它们会生成空分区,这在您的情况下成本很高。
修复的选择可能是:
改变分区策略
选择一个替代的分区器来减少分区的数量。例如,PaginateByCount 会将数据库拆分为一定数量的分区。
创建您自己的分区器 - 只需实现该特征,您就可以应用聚合管道并对结果进行分区。查看HalfwayPartitioner和 custom partitioner test举个例子。
使用 $out 将结果预先聚合到一个集合中并从那里读取。
coalesce(N)
将分区合并在一起并减少分区的数量。spark.mongodb.input.partitionerOptions.partitionSizeMB
配置以生成更少的分区。自定义分区器应该会产生最佳解决方案,但有一些方法可以更好地利用可用的默认分区器。
如果您认为应该有一个使用聚合管道计算分区的默认分区程序,那么请向 MongoDB 添加一个票证 Spark Jira project .
关于MongoDB Spark Connector - 聚合速度慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40419921/
我想为 python 3 使用 mysql-connector 库。我可以使用 pymysql 代替,但是 mysql-connector 已经有一个连接池实现,而 pymysql 似乎没有。所以我要
哈,我正在尝试在 asp.net 4 中将 CKFinder 与 ckeditor 一起使用,但出现此错误: Could not load type 'CKFinder.Connector.Conne
哈,我正在尝试在 asp.net 4 中将 CKFinder 与 ckeditor 一起使用,但出现此错误: Could not load type 'CKFinder.Connector.Conne
SAP Java 连接器 是否仍然是将 Java 应用程序与 SAP 连接的好方法?将来(尤其是在 ECC 6.0 中)是否会有连接器的支持和维护,或者是使用 ECC 6.0 中的“企业服务”的唯一好
我一直在使用 AzureLogicApp 中的 FTP 连接器将 FTP 服务器中的文件从源文件夹解压缩到目标文件夹。 我已将 FTP 连接器配置为在源文件夹中添加文件时触发。 我面临的问题是此处触发
我一直在使用 AzureLogicApp 中的 FTP 连接器将 FTP 服务器中的文件从源文件夹解压缩到目标文件夹。 我已将 FTP 连接器配置为在源文件夹中添加文件时触发。 我面临的问题是此处触发
1) sudo dpkg -i mysql-connector-python_1.0.12-1ubuntu12.04_all.deb 2) sudo dpkg -i mysql-utilities_1
导入 mysql.connector ModuleNotFoundError:没有名为“mysql.connector”的模块; 'mysql' 不是一个包 pip install mysql-con
我正在为我们的一位客户开发 C# 应用程序。我们已经定义了一些 IDOC 结构。所有规范都在 Excel 表格中。 所以问题是:是否可以从“IDOCTYPE_READ_COMPLETE”函数获取整个
我有这两个表:gantt_tasks 和 gantt_links,我成功将任务添加到第一个表,但如果我尝试添加链接,则会出现此错误。 java.lang.ClassCastException: com
我正在尝试在远程 tomcat 服务器(8.5.39)上部署我的 java 后台。为了使用 https,我在/conf/server.xml 上更改了这些行 我可以在远程服务器上运行t
当我安装mysql-connector-python 2.0.1-1时( http://dev.mysql.com/downloads/connector/python/ ) 在 Ubuntu 14.
为了在 SFTP 写入连接器中获取文件名,我已将文件名存储在变量中并写入文件(暂存),然后将其写入目录。从不同的流中,我需要将相同的文件移动到输出位置,两个流不是相互链接的。 Mule4 中没有 Se
我在 virtualbox 中使用 vagrant。将数据插入数据库时出现此错误。我尝试修复错误的事情: 清除所有缓存、路由和配置 确保我的 env 文件已配置(我已经尝试将 127.0.0.1
我正在准备第一次使用jdbc,并且正在为MySQL安装jdbc驱动程序。 但是,我不清楚将这些文件中的哪些移动到 Eclipse 中的 WEB_INF/lib 文件夹中。它们似乎都包含相同的内容,并一
我使用的是Eclipse Helios v3.6,每次启动时,都会显示以下对话框。但是我不使用颠覆。有人知道如何停止吗? 最佳答案 我遇到过同样的问题。要修复它,我进入了Eclipse插件目录,并搜索
我已经在mongodb服务器中安装了mongo-connector。 我通过发出命令来执行 mongo-connector -m [remote mongo server IP]:[remote mo
我使用的是 gnu/linux 系统,特别是 Fedora 21 64 位。我想通过终端系统启动我的arduino IDE,突然,这个错误出现了: Could not find agent libra
Mysql-connector-java驱动版本问题 由于我的数据库版本是5.7.28 ,在使用java连接mysql时经常出现版本问题。 com.mysql.jdbc.Driver 是
当前问题集: 包含 mysql_connector 对象的 Python 应用程序 只能使用 mysql 访问远程服务器(不能使用 ssh、rsh、telnet 等) 目标: 使用 mysql 连接器
我是一名优秀的程序员,十分优秀!