hadoop - NIFI:使用卡夫卡并将数据存储到配置单元中的正确方法-6ren

hadoop - NIFI:使用卡夫卡并将数据存储到配置单元中的正确方法

转载作者：行者123 更新时间：2023-12-02 18:49:09

26

4

我的任务是创建应该从kafka提取消息，从中转换消息并存储到Hive表中的kafka使用者。

因此，在kafka主题中，有很多消息作为json对象。

我喜欢添加一些字段并将其插入到 hive 中。

我使用以下Nifi处理器创建流程:

ConsumeKafka_2_0

JoltTransformJSON-用于转换json

ConvertRecord-将json转换为配置单元

的插入查询

PutHiveQL

该主题将足够加载，并且每天处理大约5Gb数据。

因此，有什么方法可以优化我的流程(我认为向Hive提供大量插入查询是一个坏主意)？也许最好使用外部表和putHDFS Processor(通过这种方式将分区与输入json合并到一个文件中？)

最佳答案

您可能怀疑，使用PutHiveQL执行大量单个INSERT的性能不是很高。使用外部表方法可能会更好。如果表为ORC格式，则可以使用ConvertAvroToORC(对于Hive 1.2)或PutORC(对于Hive 3)，它们都会生成Hive DDL以帮助创建外部表。

也有Hive流处理器，但是如果您使用的是Hive 1.2，那么PutHiveStreaming也不是很出色(但仍应优于具有INSERT的PutHiveQL)。对于Hive 3，PutHive3Streaming应该具有更高的性能，这是我推荐的解决方案。

关于hadoop - NIFI:使用卡夫卡并将数据存储到配置单元中的正确方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61894902/

26

4

0

文章推荐： sql - hive -如何从类型为列表的表中读取列

文章推荐： nginx - 同一主机上的两个容器之间的通信

文章推荐： java - 如何从Kafka Topic获取记录总数并保存到HDFS中？

apache-nifi - NiFi 覆盖 nifi.properties 中的值
我在 docker 中运行 NiFi，所有相关目录都安装为卷。我正在尝试修改 nifi.properties 文件中的一些设置，特别是添加自定义属性文件。但是，当我重新启动 NiFi 时，某些属性会恢
apache-nifi - 当多个 nifi 应用程序运行时，如何从特定于我的应用程序的 nifi 日志中捕获错误
我们有多个团队 nifi 应用程序在同一台 nifi 机器上运行...有什么方法可以记录特定于我的应用程序的日志吗？此外，默认情况下 nifi-app.log 文件很难跟踪问题，公告板仅显示 5 分钟
apache-nifi - Nifi 1.10.0-使用新的无状态 NiFi 执行引擎和命令行
有了这个功能，现在有两个执行引擎---无状态和有状态，但我不确定它们分别适合哪些场景？当我想方便地更新一个或多个参数时，使用steteless执行引擎和命令行？如果我需要查看流程状态，在Nifi U
java - NIFI : limit number of concurrent tasks of a NIFI processor in a NIFI-Cluster
这个问题说明了一切。我怎样才能做以下事情之一: 如何限制在集群范围内为一个处理器运行的并发任务数？我运行的节点是否有任何唯一的短 ID？我可以使用这些 ID 附加到要加载的数据库表名(请参阅下面的详
apache-nifi - 数据来源已禁用 NIFI
我在 HDF 2.1.1 的集群模式下使用 NIFI 1.1.0，并且禁用了数据来源，知道如何启用它吗？在我的独立版本中它是默认启用的。最佳答案您的独立实例和集群之间的主要区别在于您的集群是安全
apache-nifi - Nifi 多部分形式
我正在尝试将一个非常简单的多部分表单发布到 api。我在 apache Nifi 中看不到任何这样做的方法，因为它似乎只有一个表单数据输入。在这里和 Nifi 论坛上似乎有很多关于此的现有问题，但没有
apache-nifi - NIFI - 从开发到测试到生产
随着流程在开发、测试和生产阶段的进展，我们正在努力找出更新处理器配置的最佳方法。当流部署到特定环境时，我们真的希望避免在处理器中操纵主机、端口等引用。至少在我们的例子中，我们将有不同的主机用于 Ela
apache-nifi - NIFI 用例
我对 Nifi 及其功能以及它的适当用例有疑问。我读过 Nifi 的真正目标是创建一个允许基于流的处理的空间。在玩弄 Nifi 之后，我也开始意识到它能够以对我有用的方式对数据进行建模/塑造。 Ni
apache-nifi - nifi 的多个流
我们有多个(50 多个)nifi 流，它们基本上都做同样的事情:从数据库中提取一些数据，将一些列附加到 parquet 并上传到 hdfs。它们仅在细节上有所不同，例如要运行的 sql 查询或它们在
apache-nifi - NiFi - 失败时停止
我一直在尝试 google 和搜索堆栈以寻找答案，但一直找不到。使用 NiFi，是否可以在之前的作业失败时停止进程？我们有需要处理的用户数据，但数据是按顺序构造的，因此如果作业失败，我们需要停止运
apache-nifi - NiFi 是否可以通过远程进程组连接到自身？
我正在从事一个大量使用 Apache NiFi v1.10.0 的项目。我厌倦了点击数百个流程组来应用基本相同的小修复。我最近发现了远程进程组，我想知道是否有办法将 NiFi 实例连接到自身并以这种
apache-nifi - Nifi 自定义处理器异常
我使用的是 Nifi 0.4.1 版本。我正在编写自定义代码以将 CSV 转换为 avro 格式。我已经创建了类文件并能够生成 nar 文件。将 nar 文件放在 lib 目录中并重新启动 nifi
apache-nifi - NIFI 未启动 |组织.apache.nifi.web.NiFiCoreException : Unable to start Flow Controller
我正在尝试重新启动 NiFi 并出现以下异常。 2016-04-22 09:27:30,672 WARN [main] org.apache.nifi.web.server.JettyServer F
apache-nifi - 调试复杂 NiFi 数据流的理想方式
根据我在使用 NiFi 构建一些数据库摄取 PoC 后的理解，整个数据流作为流文件流运行。并且在任何特定时间，执行控制可以同时在一个或多个处理器上。所以我真的很困惑如何针对任何故障调试复杂的数据流。
apache-nifi - 如何在 Nifi 中引用环境变量？
我想在我的 Nifi 处理器中引用一个环境变量(一个 linux 环境变量)。我尝试通过直接在处理器属性中引用 ${MY_VARIABLE_NAME} 来使用表达式语言。但这似乎不起作用。这可能吗？如
apache-nifi - 自动化 NIFI 模板部署
我是 nifi 的新手，我试图了解(因为它看起来很多基于 GUI)是否有一种方法可以在 Nifi 上自动缩放，以及如何使用 xml Nifi 模板并将其部署到集群。本质上，我们试图做的是使用 Nif
apache-nifi - NiFi FlowFile 存储库无法更新
我正在使用 Apache NiFi 来摄取和预处理一些 CSV 文件，但是在长时间运行时，它总是失败。错误总是一样的: FlowFile Repository failed to update 在日志
apache-nifi - 更快地开发和测试新的 Nifi 处理器
我正在为我的数据流开发新的 Nifi 处理器。我在 eclipse 中进行代码更改，创建新的 .nar 文件并将其复制到 Nifi lib 以进行测试。在 nar 更新中，Nifi 需要重新启动，这
apache-nifi - 在将流文件移动到 NiFi 中的下一个处理器之前引入时间延迟
在 NiFi 中，存在从 MQTT(ConsumeMQTT)消费并发布到 HDFS 路径(PutHDFS)的数据流。我需要在将消耗的数据推送到 HDFS 路径之前引入 60 分钟的延迟。发现 Cont
apache-nifi - 如何保存我在 nifi 上所做的事情。？
我是 apache NIFI 的新手。我有点想知道保存按钮在哪里。我尝试了我在 youtube 上看到的教程中的示例。我想保存我创建的所有处理器以供将来引用。我没有看到任何保存按钮。以后可以保存我的工

首页

博学

6Ren·AI

商城

hadoop - NIFI:使用卡夫卡并将数据存储到配置单元中的正确方法