gpt4 book ai didi

mysql - 从 HDFS 读取到 Spark

转载 作者:可可西里 更新时间:2023-11-01 15:10:29 26 4
gpt4 key购买 nike

我正在尝试将文件从 HDFS 读取到 Spark 中并对其执行一些数据处理。最初,我使用 Sqoop 将文件从 MySQL 数据库传输到 Spark。 SQL 数据库表具有三列 - movieid、title 和 genres。我想知道我应该如何格式化 sc.textFile 以正确提取文件。

运行 hdfs dfs -ls,我看到:

drwxr-xr-x  - hduser1 supergroup           0 2017-03-20 23:51 movies

运行 hdfs dfs -ls 电影,我看到:

-rw-r--r--  1 hduser1 supergroup           0 2017-03-20 23:51 movies/_SUCCESS
-rw-r--r-- 1 hduser1 supergroup 1290474 2017-03-20 23:51 movies/part-m-0000

我想弄清楚的是以下函数中的内容:

case class Movie(movieid: String, title: String, genres: String)
val movieRdd: RDD[Movie] = sc.textFile(***WHAT GOES HERE***).map(-formatting-)

最佳答案

您可以按照以下格式进行编码:

sc.textFile(hdfs://NamenodeIPAddress:Port/DirectoryLocation)

example: sc.textFile(hdfs://127.0.0.1:8020/user/movies)

请根据您所在位置的名称节点 IP 地址和路径更改 IP 地址。

希望对您有所帮助!!!...

关于mysql - 从 HDFS 读取到 Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42939063/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com