- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在尝试训练一个 Apache Spark 应用程序,它应该在 MongoDB 数据库上运行聚合查询并写回结果。我能够解决问题的 Java 版本,但现在需要使用 RStudio 将其移植到 R 语言。
有效的 Java 版本:-
public static void main(String args[]) {
SparkConf sparkConf = new SparkConf(true)
.setMaster("local[*]")
.setSparkHome(SPARK_HOME)
.setAppName("SparklingMongoApp")
.set("spark.ui.enabled", "false")
.set("spark.app.id", APP)
.set("spark.mongodb.input.uri", "mongodb://admin:password@host:27017/input_collection")
.set("spark.mongodb.output.uri", "mongodb://admin:password@host:27017/output_collection");
JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);
JavaMongoRDD<Document> javaMongoRDD = MongoSpark.load(javaSparkContext);
Dataset<Row> dataset = javaMongoRDD.toDF();
dataset.createOrReplaceTempView(TEMP_VIEW);
// a valid spark sql QUERY
Dataset<Row> computedDataSet = dataset.sqlContext().sql(QUERY);
MongoSpark.save(computedDataSet);
javaSparkContext.close();
我正在尝试锻炼的等效 R/RStudio 版本:-
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
##PROBLEM - Is this correct way of setting configuration?
sparkConfig <- list("spark.driver.memory"="1g","spark.mongodb.input.uri"="mongodb://username:password@localhost:27017/price_subset?authSource=admin","spark.mongodb.output.uri"="mongodb://username:password@localhost:27017/price_subset_output?authSource=admin")
customSparkPackages <- c("org.mongodb.spark:mongo-spark1-connector_2.11:1.0.0");
##Starting Up: SparkSession
##PROBLEM-1 Is this correct way of initializing spark session ?
sparkSession <- sparkR.session(appName="MongoSparkConnectorTour",master = "local[*]",enableHiveSupport = FALSE,sparkConfig = sparkConfig,sparkPackages = customSparkPackages)
##PROBLEM-2 - This complains about being deprecated. How to fix this ?
sqlContext <- sparkRSQL.init(sparkSession)
## Save some data
charactersRdf <- data.frame(list(name=c("Bilbo Baggins", "Gandalf", "Thorin", "Balin", "Kili", "Dwalin", "Oin", "Gloin", "Fili", "Bombur"),
age=c(50, 1000, 195, 178, 77, 169, 167, 158, 82, NA)))
charactersSparkdf <- createDataFrame(sqlContext, charactersRdf)
#PROBLEM-3 This throws an error - Error in invokeJava(isStatic = FALSE, objId$id, methodName, ...) :
# java.lang.NoClassDefFoundError: com/mongodb/ConnectionString
write.df(charactersSparkdf, "", source = "com.mongodb.spark.sql.DefaultSource", mode = "overwrite")
我尝试关注 SparkR文档,但仍然无法锻炼运行示例。
期望:-
在 RStudio 中初始化 spark session 的正确方法是什么。 MongoDB official sample不适用于我,因为它仅适用于 SparkShell(它卡在我的机器上)并且已弃用。我想要可以在 RStudio 中运行的代码片段。
如何修复 java.lang.NoClassDefFoundError。
任何有关 SparkR 2.x + MongoDB 3.x 代码的示例/引用都将受到高度赞赏。
版本:- Apache 星火 - 2.0.1 java - 1.8MongoDB-3R - 最新的
最佳答案
终于成功了。原来 MongoDB 文档有 Spark 1.6 的示例,而我运行的是 Spark 2.0.1。
无论如何,这就是我使用 RStudio 的方法:-
## Make sure you have SPARK_HOME environment variable set to your spark home director.
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
spark <- sparkR.session(master="local[*]", appName = "mongoSparkR",enableHiveSupport = FALSE,sparkPackages = c("org.mongodb.spark:mongo-spark-connector_2.11:2.0.0-rc0"),sparkConfig = list(spark.mongodb.input.uri="mongodb://username:password@hostname:27017/database.collection_name?authSource=admin",spark.mongodb.output.uri="mongodb://username:password@hostname:27017/database.collection_name_output?authSource=admin"))
pricing_df <- read.df(source = "com.mongodb.spark.sql.DefaultSource",x=10000)
head(pricing_df)
createOrReplaceTempView(pricing_df,"T_YOUR_TABLE")
## Obviously this is just a dummy SQL, replace with it yours.
result_df <- sql("SELECT year(price) as YEAR, month(price) as MONTH , SUM(midPrice) as SUM_PRICING_DATA FROM T_YOUR_TABLE GROUP BY year(price),month(price) ORDER BY year(price),month(price)")
## stop instance when done.
sparkR.stop()
确保您的 SPARK_HOME/jars
文件夹中有依赖的 jar。
我放置的额外 jars(版本可能会随着时间的推移而变化):-
org.mongodb.spark_mongo-spark-connector_2.11-2.0.0-rc0.jar
org.mongodb_mongo-java-driver-3.2.2.jar
关于r - 使用 MongoDB 和 RStudio 的 SparkR 2.x 应用程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40084644/
在使用 rstudio 中的“查找/替换”功能进行搜索时,如何(如果可能)在我的 Rscript 中计算搜索的总出现次数? 例如,假设我有以下脚本: a <- c(1,2,3) print(a) pr
我试图确保在保存文件时,Shiny 中 RStudio 中的代码折叠(通过 Alt+L)保持原位。目前,每次保存文件时,折叠都会消失。有人知道如何使折叠永久且独立于保存文件吗? 供引用:我在 Wind
我是一个非常注重视觉的人,希望区分#我注释掉的命令和##给我自己或同事的文件消息。我查看了 RStudio 是否支持不同类型的注释,但似乎不支持。有谁知道解决这个问题的方法吗? 谢谢! 最佳答案 你可
我正在使用 RStudio,并一直在尝试使用 rPython 包来为我处理一些电子邮件。这涉及到解压一些电子邮件附件,因此我需要使用比 2.7 更新的 Python 版本。 我在 ubuntu 上,所
我刚读了Google's R Style Guide , 并决定与函数名和变量中的字母大小写一致。如何在 RStudio 的编辑器中更改字母大小写?具体来说,如何换词 全部小写 全部大写 大写的大小写
有没有办法禁用 RStudio 中的所有断点?我查看了 RStudio 文档并进行了谷歌搜索,但找不到方法。 最佳答案 我也很好奇,特别想对断点有个大概的了解。 我跑了grep在我的项目文件夹中,这就
是否可以在 Rstudio 中更改背景颜色?我知道可以更改编辑器的主题,这是一个非常好的功能并且我已经在使用,但是是否可以更改其他窗口(环境、历史、文件等)的背景颜色... ) 到白色以外的其他东西,
我正在 RStudio 中开发一个包,并想使用断点来调试我的函数。但是,我一直遇到同样的问题:我设置了一个断点,RStudio 警告我必须构建并重新加载包才能激活断点(即使我刚刚构建并重新加载了包),
登录Desktop Rstudio后,会出现以下消息: Error in yaml.load(readLines(con), error.label = error.label, ...) : o
我已经开始学习 - Windows 操作系统上的机器学习类(class)。每当我启动 Spyder 3.2.4(Python 3.6) & RStudio(1.1.383) 的新实例时,每次我都需要在
我看了Fira Code我想使用列出的受支持编辑器之一进行尝试。所以我启动了 RStudio(Win 盒上的 0.99.491 版)并将字体设置为 Fira Code 但......没有。那么如何在
在 linux 中,我经常用鼠标突出显示文本进行复制,然后在其他地方单击鼠标中键进行粘贴。在 RStudio 中,这不起作用,强制使用 Ctrl+C 和 Ctrl+V 或右键单击菜单。我经常想在控制台
有没有办法改变 help 中显示的文本的字体大小? Rstudio 的选项卡? 我知道可以在所有面板中更改字体大小 Tools > Global > Options > Appearance ,但它不
我下载了最新版本的 Rstudio 以便能够自定义主题。 我按照这个教程安装了 Pandas 主题: https://towardsdatascience.com/customize-your-rst
我使用的是 RStudio 版本 1.1.456,它运行的是 R 版本 3.5.1。我在 64 位 Windows 7 Enterprise 上运行。 我刚开始使用 R Markdown,所以当我在
我一直使用 VScode 作为记笔记的主要 Markdown 平台,并且我已经习惯了实时预览功能。 现在我必须使用 Rmarkdown 生成可更新的报告,我想知道是否有人知道如何使用 Rstudio
我戴老花眼镜,可以阅读所有其他 Pane ,但经常不得不打开 R 寻求帮助,因为它的字体较大,虽然我觉得不方便。 我在 support.rstudio.com 中没有找到任何答案;其他人在 2014
实际上我需要使用 https 运行 rstudio 服务器。 默认为http://server-ip:8787 我正在关注这个文件-(ssl-配置) https://s3.amazonaws.com/
Anaconda 4.3.1 中包含的 Rstudio 安装在我的视网膜屏幕 macbook 上以低分辨率显示。 其他 anaconda 应用程序,以及独立版本的 Rstudio 看起来都不错。 关于
在我的代码完成执行后,我不断地在 RStudio 的编辑窗口中输入,当时我的目的是在控制台窗口中提供一些输入。是否有可以执行的 R 代码可以自动将焦点移动到 RStudio 的控制台窗口? 最佳答案
我是一名优秀的程序员,十分优秀!