apache-spark - 将 RDD 解复用到多个 ORC 表上-6ren

apache-spark - 将 RDD 解复用到多个 ORC 表上

转载作者：行者123 更新时间：2023-12-04 16:06:17

25

4

我正在尝试将存储在 S3 中的数据作为 JSON-per-line 文本文件转换为结构化的列格式，如 S3 上的 ORC 或 Parquet。

源文件包含多种方案的数据(例如 HTTP 请求、HTTP 响应等)，需要将其解析为正确类型的不同 Spark 数据帧。

示例模式:

  val Request = StructType(Seq(
    StructField("timestamp", TimestampType, nullable=false),
    StructField("requestId", LongType),
    StructField("requestMethod", StringType),
    StructField("scheme", StringType),
    StructField("host", StringType),
    StructField("headers", MapType(StringType, StringType, valueContainsNull=false)),
    StructField("path", StringType),
    StructField("sessionId", StringType),
    StructField("userAgent", StringType)
  ))

  val Response = StructType(Seq(
    StructField("timestamp", TimestampType, nullable=false),
    StructField("requestId", LongType),
    StructField("contentType", StringType),
    StructField("contentLength", IntegerType),
    StructField("statusCode", StringType),
    StructField("headers", MapType(keyType=StringType, valueType=StringType, valueContainsNull=false)),
    StructField("responseDuration", DoubleType),
    StructField("sessionId", StringType)
  ))

我让那部分工作正常，但是尝试尽可能有效地将数据写回 S3 似乎是一个问题 atm。

我尝试了 3 种方法:

muxPartitions来自silex项目

缓存已解析的 S3 输入并对其进行多次循环

使每个方案类型成为 RDD 的单独分区

在第一种情况下，JVM 内存不足，而在第二种情况下，机器磁盘空间不足。

第三个我还没有彻底测试过，但这似乎不是对处理能力的有效利用(因为集群中只有一个节点(这个特定分区所在的节点)实际上会将数据写回 S3) .

相关代码:

val allSchemes = Schemes.all().keys.toArray

if (false) {
  import com.realo.warehouse.multiplex.implicits._

  val input = readRawFromS3(inputPrefix) // returns RDD[Row]
    .flatMuxPartitions(allSchemes.length, data => {
      val buffers = Vector.tabulate(allSchemes.length) { j => ArrayBuffer.empty[Row] }
      data.foreach {
        logItem => {
          val schemeIndex = allSchemes.indexOf(logItem.logType)
          if (schemeIndex > -1) {
            buffers(schemeIndex).append(logItem.row)
          }
        }
      }
      buffers
    })

  allSchemes.zipWithIndex.foreach {
    case (schemeName, index) =>
      val rdd = input(index)

      writeColumnarToS3(rdd, schemeName)
  }
} else if (false) {
  // Naive approach
  val input = readRawFromS3(inputPrefix) // returns RDD[Row]
    .persist(StorageLevel.MEMORY_AND_DISK)

  allSchemes.foreach {
    schemeName =>
      val rdd = input
        .filter(x => x.logType == schemeName)
        .map(x => x.row)

      writeColumnarToS3(rdd, schemeName)
  }

  input.unpersist()
} else {
  class CustomPartitioner extends Partitioner {
    override def numPartitions: Int = allSchemes.length
    override def getPartition(key: Any): Int = allSchemes.indexOf(key.asInstanceOf[String])
  }

    val input = readRawFromS3(inputPrefix)
      .map(x => (x.logType, x.row))
      .partitionBy(new CustomPartitioner())
      .map { case (logType, row) => row }
      .persist(StorageLevel.MEMORY_AND_DISK)

    allSchemes.zipWithIndex.foreach {
      case (schemeName, index) =>
        val rdd = input
          .mapPartitionsWithIndex(
            (i, iter) => if (i == index) iter else Iterator.empty,
            preservesPartitioning = true
          )

        writeColumnarToS3(rdd, schemeName)
    }

    input.unpersist()
}

从概念上讲，我认为每个方案类型的代码应该有 1 个输出 DStream，并且输入 RDD 应该选择将每个处理过的项目放到正确的 DStream 上(通过批处理以获得更好的吞吐量)。

有没有人对如何实现这一点有任何指示？和/或是否有更好的方法来解决这个问题？

最佳答案

鉴于输入是一个 json，您可以将其读入一个字符串数据帧(每行是一个字符串)。然后，您可以从每个 json 中提取类型(通过使用 UDF 或使用诸如 get_json_object 或 json_tuple 之类的函数)。

现在您有两列:类型和原始 json。您现在可以在写入数据帧时使用 partitionBy 数据帧选项。这将为每种类型生成一个目录，该目录的内容将包括原始 jsons。

现在，您可以使用自己的架构读取每种类型。

您还可以使用映射对 RDD 执行类似的操作，该映射将输入 rdd 转换为一对 rdd，键是类型，值是转换为目标模式的 json。然后您可以使用 partitionBy 和 map partition 将每个分区保存到一个文件中，或者您可以使用 reduce by key 写入不同的文件(例如，通过使用 key 设置文件名)。

你也可以看看Write to multiple outputs by key Spark - one Spark job

请注意，我在这里假设目标是拆分为文件。根据您的特定用例，其他选项可能是可行的。例如，如果您的不同模式足够接近，您可以创建一个包含所有模式的 super 模式，并直接从中创建数据帧。然后，您可以直接处理数据帧，也可以使用数据帧 partitionBy 将不同的子类型写入不同的目录(但这次已保存到 Parquet )。

关于apache-spark - 将 RDD 解复用到多个 ORC 表上，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41148981/

25

4

0

文章推荐： sql - Oracle:获取所有约束/列(主键和外键)

文章推荐： wcf - 使用 Ninject、MVC3 和 WCF 进行 MSTest

文章推荐： sql - 计算一个月的条目数

apache-kafka - Apache Beam over Apache Kafka流处理
在流处理方面，Apache Beam和Apache Kafka之间有什么区别？我也试图掌握技术和程序上的差异。请通过您的经验报告来帮助我理解。最佳答案 Beam是一种API，它以一种统一的方式使
apache-kafka - Apache 点燃与 Apache 卡夫卡
有点n00b的问题。如果我使用 Apache Ignite 进行消息传递和事件处理，是否还需要使用 Kafka？与 Ignite 相比，Kafka 基本上会给我哪些(如果有的话)额外功能？提前致
apache-drill - Apache 元模型与 Apache Drill
Apache MetaModel 是一个数据访问框架，它为发现、探索和查询不同类型的数据源提供了一个通用接口(interface)。 Apache Drill 是一种无架构的 SQL 查询引擎，它通过
apache - Apache 和 Apache Tomcat 的使用区别
Tomcat是一个广泛使用的java web服务器，而Apache也是一个web服务器，它们在实际项目使用中有什么不同？经过一些研究，我有了一个简单的想法，比如， Apache Tomcat Ja
apache - 何时使用 Apache 与 Apache+Tomcat？
既然简单地使用 Apache 就足以运行许多 Web 应用程序，那么人们何时以及为什么除了 Apache 之外还使用 Tomcat？最佳答案 Apache Tomcat是一个网络服务器和 Java
apache - 单个用户下的多个域的目录结构应该是什么？ ( Apache )
我在某个 VPS( friend 的带 cPanel 的 apache 服务器)上有一个帐户，我在那里有一个 public_html 目录。我们有大约 5-6 个网站: /home/myusernam
apache - 将模块加载到 Apache
我目前正在尝试将模块加载到 Apache，使用 cmake 构建。该模块称为 mod_mapcache。它已成功构建并正确安装在/usr/lib/apache2/modules directroy 中
apache - 网址中的问号(Apache)
我对 url 中的问号有疑问。例如:我有 url test.com/controller/action/part_1%3Fpart_2 (其中 %3F 是 url 编码的问号)，并使用此重写规则:R
apache - 使用 Let's encrypt with Apache 和 Apache Tomcat
在同一台机器上，Apache 在端口 80 上运行，Tomcat 在端口 8080 上运行。 Apache 包括 html;css;js;文件并调用 tomcat 服务。基本上 exampledom
apache - Apache 1 和 Apache 2 的区别
Apache 1 和 Apache 2 的分支有什么区别？使用一种或另一种的优点和缺点？似乎 Apache 2 的缺点之一是使用大量内存，但也许它处理请求的速度更快？最有趣的是 Apache 作
apache - 从uri模式确定变量(Apache)
实际上，我们正在使用 Apache 网络服务器来托管我们的 REST-API。脚本是用 Lua 编写的，并使用 mod-lua 映射。例如来自 httpd.conf 的实际片段: [...] Lu
apache - apache、ubuntu中的ServerAlias
我在 apache 上的 ubuntu 中有一个虚拟主机，这不是我的主要配置，我有另一个网页作为我的主要网页，所以我想使用虚拟主机在同一个 IP 上设置这个。 urologyexpert.mx 是我的
apache-camel - Apache Camel 与 Apache Nifi
我使用 Apache camel 已经很长时间了，发现它是满足各种系统集成相关业务需求的绝佳解决方案。但是几年前我遇到了 Apache Nifi 解决方案。经过一番谷歌搜索后，我发现虽然 Nifi 可
apache-flink - Apache Apex 与 Apache Flink
由于两者都是一次处理事件的流框架，这两种技术/流框架之间的核心架构差异是什么？此外，在哪些特定用例中，一个比另一个更合适？最佳答案正如您所提到的，两者都是实时内存计算的流式平台。但是当您仔细观察
apache - apache 文件中使用什么语言？
apache 文件(如 httpd.conf 和虚拟主机)中使用的语言名称是什么，例如 # Ensure that Apache listens on port 80 Listen 80 D
apache - apache 生命周期是怎样的？
作为我学习过程的一部分，我认为如果我扩展更多关于 apache 的知识会很好。我有几个问题，虽然我知道有些内容可能需要相当冗长的解释，但我希望您能提供一个概述，以便我知道去哪里寻找。 (最好引用 mo
apache-kafka - Apache Pulsar 与 Apache RocketMQ
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 4 个月前关闭。 Improve
apache - (Apache) 错误日志美化器
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
apache-kafka - Apache Camel 与 Apache Kafka
这个问题在这里已经有了答案: Difference Between Apache Kafka and Camel (Broker vs Integration) (4 个回答) 3年前关闭。据我所知
apache - Apache 中多个目录的规则相同吗？
我有 2 个使用相同规则的子域，如下所示: RewriteEngine On RewriteCond %{REQUEST_FILENAME} !-f RewriteCond

首页

博学

6Ren·AI

商城

apache-spark - 将 RDD 解复用到多个 ORC 表上