r - 如何将 csv 读入 sparkR 1.4 版？-6ren

r - 如何将 csv 读入 sparkR 1.4 版？

转载作者：行者123 更新时间：2023-12-04 09:59:24

24

4

作为 spark 的新版本(1.4) 已发布，似乎对 spark 有一个不错的前端接口(interface)。来自 R包名为 sparkR .在 documentation page of R for spark有一个命令可以读取 json文件作为 RDD 对象

people <- read.df(sqlContext, "./examples/src/main/resources/people.json", "json")

我正在尝试从 .csv 读取数据像 this revolutionanalitics' blog 上描述的文件

# Download the nyc flights dataset as a CSV from https://s3-us-west-2.amazonaws.com/sparkr-data/nycflights13.csv

# Launch SparkR using 
# ./bin/sparkR --packages com.databricks:spark-csv_2.10:1.0.3

# The SparkSQL context should already be created for you as sqlContext
sqlContext
# Java ref type org.apache.spark.sql.SQLContext id 1

# Load the flights CSV file using `read.df`. Note that we use the CSV reader Spark package here.
flights <- read.df(sqlContext, "./nycflights13.csv", "com.databricks.spark.csv", header="true")

注释说我需要一个 spark-csv 包来启用此操作。所以我从这个 github repo下载了这个包使用此命令:

$ bin/spark-shell --packages com.databricks:spark-csv_2.10:1.0.3

但后来我在尝试读取 .csv 时遇到了这样的错误。文件。

> flights <- read.df(sqlContext, "./nycflights13.csv", "com.databricks.spark.csv", header="true")
15/07/03 12:52:41 ERROR RBackendHandler: load on 1 failed
java.lang.reflect.InvocationTargetException
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.spark.api.r.RBackendHandler.handleMethodCall(RBackendHandler.scala:127)
    at org.apache.spark.api.r.RBackendHandler.channelRead0(RBackendHandler.scala:74)
    at org.apache.spark.api.r.RBackendHandler.channelRead0(RBackendHandler.scala:36)
    at io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:105)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:333)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:319)
    at io.netty.handler.codec.MessageToMessageDecoder.channelRead(MessageToMessageDecoder.java:103)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:333)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:319)
    at io.netty.handler.codec.ByteToMessageDecoder.channelRead(ByteToMessageDecoder.java:163)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:333)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:319)
    at io.netty.channel.DefaultChannelPipeline.fireChannelRead(DefaultChannelPipeline.java:787)
    at io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.read(AbstractNioByteChannel.java:130)
    at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:511)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:468)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:382)
    at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:354)
    at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:116)
    at io.netty.util.concurrent.DefaultThreadFactory$DefaultRunnableDecorator.run(DefaultThreadFactory.java:137)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.RuntimeException: Failed to load class for data source: com.databricks.spark.csv
    at scala.sys.package$.error(package.scala:27)
    at org.apache.spark.sql.sources.ResolvedDataSource$.lookupDataSource(ddl.scala:216)
    at org.apache.spark.sql.sources.ResolvedDataSource$.apply(ddl.scala:229)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:114)
    at org.apache.spark.sql.SQLContext.load(SQLContext.scala:1230)
    ... 25 more
Error: returnStatus == 0 is not TRUE

关于这个错误意味着什么以及如何解决这个问题的任何想法？

当然我可以尝试阅读 .csv以标准方式，例如:

read.table("data.csv") -> flights

然后我可以转换 R data.frame进入 spark的 DataFrame像这样:

flightsDF <- createDataFrame(sqlContext, flights)

但这不是我喜欢的方式，而且真的很耗时。

最佳答案

每次都必须像这样启动 sparkR 控制台:

sparkR --packages com.databricks:spark-csv_2.10:1.0.3

关于r - 如何将 csv 读入 sparkR 1.4 版？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31205016/

24

4

0

文章推荐： operating-system - 带测试和集合的有界等待互斥

文章推荐： r - 如何使用两个分类变量进行交叉表，但用第三个变量的均值填充它

文章推荐： r - 在将列表转换为数据框或数据表时处理丢失的信息

文章推荐： gcc - 如何在源代码中的特定行检查 GCC 预处理器定义

windows - Windows 版 Safari 和 Mac 版 Safari 之间的区别
从开发者的角度来看，Mac 版 Safari 和 Windows 版 Safari 有何不同？我认为可以归结为评估两者之间的差异(如果我遗漏了什么，请更正): - 布局渲染 - Javascript
android - iOS 版 Chrome 和 Android 版 Chrome 之间的区别
正如标题所说:Android 版 Chrome 和 iOS 版 Chrome 有什么区别。我对两者进行了一些研究，但找不到关于该主题的任何最新信息。进行这项研究的原因是因为我正在研究某些 Web A
javascript - 地理定位在 Android 版 Chrome 和 Android 版 Firefox 中不起作用
我有以下脚本可以获取您的地理位置并重定向您到 Google map : (function(){ navigator.geolocation.getCurrentPosition(function(p
css - 为什么 Mac 版 Chrome 与 PC 版 Chrome 存在利润差异？
我负责修复导航栏显示比应有的低 1 像素的问题。查看网站后，我无法找到所报告的问题，直到我在 Mac 上进行了检查。 Firefox、Safari 等在 Mac 上运行良好，但 Chrome 是导致
node.js - Windows 版 Node.js 和 Mac OS 版 Node.js 之间的主要区别？
我是典型的 .NET 开发人员(C# 是我的第一语言)，几年前转向 ASP.NET MVC。现在是我职业生涯发生重大变化的新时期。如果我们看看 Web 开发的前景，我们可以看到新技术如何占领世界，而其
grails 2.0 - 安装资源插件提供 1.1.3 版，而不是 1.1.6 版 [ ** 不要使用 install-plugin **]
Grails 2.0 项目目前带有资源插件 1.1.5，它似乎有几个依赖问题(例如，参见 this post 的答案)。我正在使用 IntelliJ，虽然我将 BuildConfig.groovy 更
安卓 Activity 版
我有一个支持 android 2.3.3 的 android 项目。但它也支持 sdk 版本 17。当我创建一个新 Activity 时，它会创建一个特定于版本 17 的 Activity 。如何
java - Android 版
有没有人有在 Android 设备上使用 pjsip 的经验？我看到几个非商业/测试项目使用它，所以我假设它可以完成，但没有一个有很好的记录。我认为 pjsip-jni 项目是一个不错的起点，但基本上
iOS 版 Fragments
谁能告诉我在 Xcode (iPhone) 中执行以下操作的最佳方法是什么。我有一个主导航屏幕，上面有一些按钮。当用户单击任何按钮时，他们将被带到带有更多选项按钮的子导航屏幕。在这里，他们单击任意一
java - hibernate 版？
我正在使用 JBoss Embedded beta3.SP10 版本，我正面临一个应该在某些 Hibernate 版本中修复的持久性错误。可悲的是，我不知道我的 JBoss Embedded 中使用的
android - Android 版
我想在 android 中使用简单的 snmp get。我找到了 java 的代码并尝试在 android 中使用它。我还附加了 snmp4j.jar 文件用于 android。但是我得到了 Null
MongoDB实现基于关键词的文章检索功能(C#版)
我的实现目标是：可以通过一个或多个关键词搜索到文章。可以通过文章的关键词列表查询到其相关文章。查询到的结果依据相关程度降序排列。查询速度要够快。（理论上关键词检索比全文检索要快很多的
iphone - iPhone 版 FFMpeg
我正在尝试创建一个允许我将视频从 iPhone 流式传输到服务器的应用程序。我目前关于如何做到这一点的理论是创建一系列 FFMpeg 文件并将它们发送到服务器。据我所知，我已经编译了 FFMpeg图书
Windows 版 GitHub 无法登录
这个问题在这里已经有了答案: Login failed in github for window (5 个回答) 7年前关闭。当我安装 GitHub 时，我无法使用我的帐户凭据登录。我收到错误 L
iphone - iPad 版 Three20
我需要在我的 iPad 项目中使用 Three20。我想知道 iPhone 版本的 Three20 项目是否可以直接在 iPad 上使用，还是应该等待这个时间线完成: http://three20.i
iphone - iPhone 版 Soundtouch
有人能做到吗 http://www.surina.net/soundtouch/适用于 iPhone？简单的 Xcode 演示会很有帮助。我只想通过一些音调操作来播放音效。谢谢克里斯最佳答案使
iphone - iPhone 版 Speex
如何在iPhone中使用“speex”进行音频编码/解码？我没有在项目中添加框架。最佳答案这个blog entry: Compile Speex For iPhone克利夫顿·克雷格(Clifto
iphone - 你好 iPhone 版
我想知道bonjour是公共(public)API还是私有(private)API？我们可以直接在我们的应用程序中使用它吗？最佳答案 Bonjour 由 NSNetServices 和 CFNetS
android - 为什么我的应用程序即使已完全发布也显示为 Beta 版？
••••• 已解决•••••该应用程序可用。只是花了一些时间才出现。我之所以将其视为测试版，是因为我的 Google 帐户用于 alpha 测试。如果您遇到同样的问题，只需从测试人员中删除您的帐户并等
java - 下载 Android 版
我是 Android 编程初学者。我在使用 Android 下载文件时遇到问题我使用了 Httpost、Httpget 和 hhtpurlconnection前两个根本不起作用第三个两次无法下载

首页

博学

6Ren·AI

商城

r - 如何将 csv 读入 sparkR 1.4 版？