hadoop - 持久化 Spark Streaming 输出-6ren

hadoop - 持久化 Spark Streaming 输出

转载作者：可可西里更新时间：2023-11-01 14:15:35

34

4

我正在从一个消息传递应用程序收集数据，我目前正在使用 Flume，它每天发送大约 5000 万条记录

我想用卡夫卡，使用 Spark Streaming 从 Kafka 消费并将其持久化到 hadoop 并使用 impala 进行查询

我尝试过的每种方法都有问题..

方法 1 - 将 RDD 保存为 parquet，将外部 hive parquet 表指向 parquet 目录

// scala
val ssc =  new StreamingContext(sparkConf, Seconds(bucketsize.toInt))
val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2)
lines.foreachRDD(rdd => {

    // 1 - Create a SchemaRDD object from the rdd and specify the schema
    val SchemaRDD1 = sqlContext.jsonRDD(rdd, schema)

    // 2 - register it as a spark sql table
    SchemaRDD1.registerTempTable("sparktable")

    // 3 - qry sparktable to produce another SchemaRDD object of the data needed 'finalParquet'. and persist this as parquet files
    val finalParquet = sqlContext.sql(sql)
    finalParquet.saveAsParquetFile(dir)

问题是 finalParquet.saveAsParquetFile 输出大量文件，从 Kafka 接收的 Dstream 以 1 分钟的批量大小输出 200 多个文件。它输出许多文件的原因是因为计算是分布式的，如另一篇文章- how to make saveAsTextFile NOT split output into multiple file? 中所解释的那样。

但是，建议的解决方案对我来说似乎并不是最佳的，例如正如一位用户所说 - 如果数据很少，只有一个输出文件是个好主意。

方法 2 - 使用 HiveContext。直接向 Hive 表中插入 RDD 数据

# python
sqlContext = HiveContext(sc)
ssc = StreamingContext(sc, int(batch_interval))
kvs = KafkaUtils.createStream(ssc, zkQuorum, group, {topics: 1})
lines = kvs.map(lambda x: x[1]).persist(StorageLevel.MEMORY_AND_DISK_SER)
lines.foreachRDD(sendRecord)

def sendRecord(rdd):

  sql = "INSERT INTO TABLE table select * from beacon_sparktable"

  # 1 - Apply the schema to the RDD creating a data frame 'beaconDF'
  beaconDF = sqlContext.jsonRDD(rdd,schema)

  # 2- Register the DataFrame as a spark sql table.
  beaconDF.registerTempTable("beacon_sparktable")

  # 3 - insert to hive directly from a qry on the spark sql table
  sqlContext.sql(sql);

这很好用，它直接插入 Parquet 表，但由于处理时间超过批处理间隔时间，批处理会出现调度延迟。消费者跟不上正在生产什么，要处理的批处理开始排队。

似乎写入配置单元很慢。我试过调整批处理间隔大小，运行更多消费者实例。

总结

考虑到存在多个文件问题和写入配置单元的潜在延迟，从 Spark Streaming 持久化大数据的最佳方法是什么？其他人在做什么？

这里也有人问过类似的问题，但他对目录有问题，而不是文件太多 How to make Spark Streaming write its output so that Impala can read it?

非常感谢您的帮助

最佳答案

在解决方案#2 中，创建的文件数量可以通过每个 RDD 的分区数量来控制。

看这个例子:

// create a Hive table (assume it's already existing)
sqlContext.sql("CREATE TABLE test (id int, txt string) STORED AS PARQUET")

// create a RDD with 2 records and only 1 partition
val rdd = sc.parallelize(List( List(1, "hello"), List(2, "world") ), 1)

// create a DataFrame from the RDD
val schema = StructType(Seq(
 StructField("id", IntegerType, nullable = false),
 StructField("txt", StringType, nullable = false)
))
val df = sqlContext.createDataFrame(rdd.map( Row(_:_*) ), schema)

// this creates a single file, because the RDD has 1 partition
df.write.mode("append").saveAsTable("test")

现在，我猜你可以玩玩从 Kafka 提取数据的频率，以及每个 RDD 的分区数(默认情况下，你的 Kafka 主题的分区，你可以通过重新分区来减少)。

我使用的是来自 CDH 5.5.1 的 Spark 1.5，我使用 df.write.mode("append").saveAsTable("test") 或您的 SQL 得到相同的结果字符串。

关于hadoop - 持久化 Spark Streaming 输出，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32885825/

34

4

0

文章推荐： windows - Git 钩子(Hook)输出 - 在哪里查看/查找

文章推荐： c# - 无法查询 AD(获取 DirectoryServicesCOMException)

持久/保存实体时，HIbernate覆盖数据
我是Hibernate的新手。当我保存特定实体时，它将从现有实体中重写数据。我将ID用作自动生成，如下所示: @Id @GeneratedValue(strategy=GenerationType.
dart - 持久/连续连接的HttpClient行为
我正在尝试以连续模式使用CouchDB更改通知API，所以我想发送此消息 _changes？feed = continuous？include_docs = true作为GET请求到达我的CouchD
XMPP 持久 session 室状态
我有 XMPP 服务器(openfire)和一堆客户端(spark)，分为几个组(部门)。我正在寻找能够将它们留在 session 室中的能力。我的意思是 Skype 具有的类似功能；当用户关闭带有群
Azure(持久)函数 - 管理并行性
我发布这个问题是为了看看我是否正确理解 Azure Functions 中的并行性，特别是 Durable Functions。最近使用 az cli 在 Azure Functions 中添加了设
azure - 持久 AKS 容器的日志
我在 Dev Env 上有一个 AKS 集群，上面运行着一些容器。我还启用了 Azure Log Analytics。但我可以看到正在运行的当前容器的日志，而不是已被终止或停止的旧容器的日志。我想知
queue - 持久 Akka 邮箱和无损
在 Akka 中，当一个 actor 在处理消息时死亡(在 onReceive(...) { ... } 内)，该消息就会丢失。有没有办法保证无损？有一种配置 Akka 在将消息发送到 onRecei
haskell - selectOneMany Yesod 持久
我试图让 selectOneMany 取得有限的成功。我有以下数据库模型 User email Text verkey Text Maybe verified Bool password T
haskell - 使用按键列表进行选择持久 (Yesod)
我需要使用持久性(Yesod)从键列表中获取实体列表假设我有一个 Model 及其相应的 ModelId。我身边有: keys :: [ModelId] 我需要得到 models :: [Model
java - GWT 持久 URL
我有一个使用 GWT、请求工厂和地点/Activity 构建的网络应用程序。我很好奇我使用的历史 token 是否持久。该任务基本上就是让 URL 定义我的网络应用程序的确切位置(读作“文件/文件夹结
jquery - 如何刷新页面并保持元素不刷新(持久)直到用户单击提交？
我正在寻找一种 jQuery 方法来在刷新页面时使页面元素持久保留在用户屏幕上。当我刷新页面并且丢失 jQuery 页面中的内容时，它会发生变化。我需要页面持久。如何刷新页面并保持元素不刷新(持久)
c - OpenMP 无效控制谓词 - 持久
当我尝试使用 gcc 编译带有 -fopenmp 标志的 C 代码时，我已经持续收到此错误超过 6 小时了。错误:控制谓词无效 for ( int i = 0; i #include #ifde
java - 如何隔离实体验证以防止整个批量(持久)事务的事务回滚？
我有带有验证注释的实体，例如@NotNull。我不知道如何防止容器管理的事务在批量持久操作中出现 ConstraintViolationException 的情况下回滚，例如: public void
javascript - 持久 header 导致网站高度崩溃
这是我的代码: http://jsfiddle.net/KCb5z/8/embedded/result/ http://jsfiddle.net/KCb5z/8/ $(function () {
java - 持久 I/O 流连接
我正在与服务器通信，理想情况下，我希望输入流和输出流始终处于运行状态。我收到未经请求的响应，因此我必须始终准备好接收输入流上的数据。在我进一步深入之前，我应该说我建立的任何连接都必须能够支持 SSL
Azure Functions - TCP 持久
我正在寻找一种正确扩展 Azure Functions 的方法，但遇到了问题。我有一组 IoT 设备，通过 HTTP 向 Azure 发送数据(为此，有一组自动扩展的 Azure Functions
浅谈Hibernate中的三种数据状态(临时、持久、游离)
1.临时态（瞬时态）不存在于session中，也不存在于数据库中的数据，被称为临时态。比如：刚刚使用new关键字创建出的对象。 2.持久态存在于session中，事务还未提交，提交之后
php - Kohana 持久 session 和子域
我在 Kohana v2 中使用数据库 session 驱动程序。为了使 session 持久化，Kohana 创建了一个 token cookie。这个 cookie 使用了我想的 cookie 配
python - PyWinrm 持久 PowerShell session
有谁知道是否有办法使用 PyWinrm 打开一个持久的 PowerShell session ，该 session 保持状态并且可以多次调用？我正在尝试执行以下操作: #!/bin/python im
elasticsearch - 如何在不重启集群的情况下(持久)更新Elasticsearch中的index.number_of_replicas设置？
在运行的Elasticsearch集群中，配置文件中的index.number_of_replicas设置为1。我可以通过运行以下命令在运行的集群上将其更新为2 # curl -XPUT "http
java - Spring + Hibernate - 持久/提交数据不起作用
我在“这么长的帖子必须意味着大量的代码和配置”部分下一对一地使用指南代码。 http://blog.springsource.com/2006/08/07/using-jpa-in-spring-wi

首页

博学

6Ren·AI

商城

hadoop - 持久化 Spark Streaming 输出

总结