gpt4 book ai didi

hadoop - Flume:Directory to Avro -> Avro to HDFS - Not valid avro after transfer

转载 作者:可可西里 更新时间:2023-11-01 14:18:37 26 4
gpt4 key购买 nike

我有用户编写 AVRO 文件,我想使用 Flume 将所有这些文件移动到使用 Flume 的 HDFS 中。所以我以后可以使用 Hive 或 Pig 来查询/分析数据。

在客户端我安装了 flume 并且有一个 SpoolDir source 和 AVRO sink 是这样的:

a1.sources = src1
a1.sinks = sink1
a1.channels = c1

a1.channels.c1.type = memory

a1.sources.src1.type = spooldir
a1.sources.src1.channels = c1
a1.sources.src1.spoolDir = {directory}
a1.sources.src1.fileHeader = true
a1.sources.src1.deserializer = avro

a1.sinks.sink1.type = avro
a1.sinks.sink1.channel = c1
a1.sinks.sink1.hostname = {IP}
a1.sinks.sink1.port = 41414

在 hadoop 集群上,我有这个 AVRO 源和 HDFS 接收器:

a1.sources = avro1
a1.sinks = sink1
a1.channels = c1

a1.channels.c1.type = memory

a1.sources.avro1.type = avro
a1.sources.avro1.channels = c1
a1.sources.avro1.bind = 0.0.0.0
a1.sources.avro1.port = 41414

a1.sinks.sink1.type = hdfs
a1.sinks.sink1.channel = c1
a1.sinks.sink1.hdfs.path = {hdfs dir}
a1.sinks.sink1.hdfs.fileSuffix = .avro
a1.sinks.sink1.hdfs.rollSize = 67108864
a1.sinks.sink1.hdfs.fileType = DataStream

问题是 HDFS 上的文件不是有效的 AVRO 文件!我正在使用 hue UI 来检查文件是否是有效的 AVRO 文件。如果我将我在我的电脑上生成的 AVRO I 文件上传到集群,我可以很好地看到它的内容。但是来自 flume 的文件不是有效的 AVRO 文件。

我尝试了包含在 flume 中的 flume avro 客户端,但没有成功,因为它每行发送一个 flume 事件,破坏了 avro 文件,该事件已通过 spooldir 源使用 修复反序列化器 = avro。所以我认为问题出在写入文件时的 HDFS 接收器上。

使用 hdfs.fileType = DataStream 它写入 avro 字段的值而不是整个 avro 文件,从而丢失所有架构信息。如果我使用 hdfs.fileType = SequenceFile 文件由于某种原因无效。

有什么想法吗?

谢谢

最佳答案

您必须将此添加到您的 hdfs 接收器配置中(此属性的值默认为 TEXT):

a1.sinks.sink1.serializer = avro_event

这应该写入有效的 avro 文件,但使用默认架构。

但是,由于您使用的是 avro 文件作为输入,因此您可能希望编写具有相同架构的 avro 文件。为此,您可以使用 AvroEventSerializer来自 cloudera's cdk .假设您构建了代码并将 jar 放在 flume 的 lib 目录中,您现在可以在属性文件中定义 Serializer:

a1.sinks.sink1.serializer = org.apache.flume.serialization.AvroEventSerializer$Builder

序列化程序假定 avro 模式出现在每个事件的 header 中,可以是 URL 也可以是 LITERAL。要使用后一种方法(效率较低,但可能更容易尝试),您必须通过添加此属性告诉客户端的源将架构文字添加到每个事件:

a1.sources.src1.deserializer.schemaType = LITERAL

关于hadoop - Flume:Directory to Avro -> Avro to HDFS - Not valid avro after transfer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21617025/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com