gpt4 book ai didi

r - RStudio独立连接到HDFS

转载 作者:行者123 更新时间:2023-12-02 18:39:49 25 4
gpt4 key购买 nike

我在笔记本电脑(Windown / Mac)上独立安装了R和RStudio,并在远程安装了Linux集群(Linux)。我想从RStudio连接到HDFS以读取数据,进行处理,然后如果需要,最后将结果推回HDFS。

我不确定这是否可行,还是只需要服务器版本的RStudio?谁能建议什么是最好的选择?

谢谢

最佳答案

它是安全的集群吗?如果不是,rwebHDFS package解决了这个问题。使用它,您可以使用以下代码连接到远程集群:

library(rwebhdfs)
hdfs <- webhdfs("<hdfs-webfs-node>", 50070, "<user>")
f <- read_file(hdfs, "/<path>/<to>/<file>")

软件包依赖于RCurl,当与安全群集一起使用时,RCurl具有限制(在Windows上为libcurl v1.0.0o)。要使用安全群集访问,我将使用 httr包并使用 WebHDFS REST API直接查询群集
# WebHDFS url
hdfsUri <- "http://namenodedns:port/webhdfs/v1"
# Uri of the file you want to read
fileUri <- "/user/username/myfile.csv"
# Optional parameter, with the format &name1=value1&name2=value2
optionnalParameters <- ""

# OPEN => read a file
readParameter <- "?op=OPEN"

# Concatenate all the parameters into one uri
uri <- paste0(hdfsUri, fileUri, readParameter, optionnalParameters)

# Read your file with the function you want as long as it supports reading from a connection
data <- read.csv(uri)

直接从link 获取的代码

没有理由获得RStudio服务器。我希望这可以为您指明正确的方向。

关于r - RStudio独立连接到HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33374779/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com