- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我有用户编写 AVRO 文件,我想使用 Flume 将所有这些文件移动到使用 Flume 的 HDFS 中。所以我以后可以使用 Hive 或 Pig 来查询/分析数据。
在客户端我安装了 flume 并且有一个 SpoolDir source 和 AVRO sink 是这样的:
a1.sources = src1
a1.sinks = sink1
a1.channels = c1
a1.channels.c1.type = memory
a1.sources.src1.type = spooldir
a1.sources.src1.channels = c1
a1.sources.src1.spoolDir = {directory}
a1.sources.src1.fileHeader = true
a1.sources.src1.deserializer = avro
a1.sinks.sink1.type = avro
a1.sinks.sink1.channel = c1
a1.sinks.sink1.hostname = {IP}
a1.sinks.sink1.port = 41414
在 hadoop 集群上,我有这个 AVRO 源和 HDFS 接收器:
a1.sources = avro1
a1.sinks = sink1
a1.channels = c1
a1.channels.c1.type = memory
a1.sources.avro1.type = avro
a1.sources.avro1.channels = c1
a1.sources.avro1.bind = 0.0.0.0
a1.sources.avro1.port = 41414
a1.sinks.sink1.type = hdfs
a1.sinks.sink1.channel = c1
a1.sinks.sink1.hdfs.path = {hdfs dir}
a1.sinks.sink1.hdfs.fileSuffix = .avro
a1.sinks.sink1.hdfs.rollSize = 67108864
a1.sinks.sink1.hdfs.fileType = DataStream
问题是 HDFS 上的文件不是有效的 AVRO 文件!我正在使用 hue UI 来检查文件是否是有效的 AVRO 文件。如果我将我在我的电脑上生成的 AVRO I 文件上传到集群,我可以很好地看到它的内容。但是来自 flume 的文件不是有效的 AVRO 文件。
我尝试了包含在 flume 中的 flume avro 客户端,但没有成功,因为它每行发送一个 flume 事件,破坏了 avro 文件,该事件已通过 spooldir
源使用 修复反序列化器 = avro
。所以我认为问题出在写入文件时的 HDFS 接收器上。
使用 hdfs.fileType = DataStream
它写入 avro 字段的值而不是整个 avro 文件,从而丢失所有架构信息。如果我使用 hdfs.fileType = SequenceFile
文件由于某种原因无效。
有什么想法吗?
谢谢
最佳答案
您必须将此添加到您的 hdfs 接收器配置中(此属性的值默认为 TEXT
):
a1.sinks.sink1.serializer = avro_event
这应该写入有效的 avro 文件,但使用默认架构。
但是,由于您使用的是 avro 文件作为输入,因此您可能希望编写具有相同架构的 avro 文件。为此,您可以使用 AvroEventSerializer来自 cloudera's cdk .假设您构建了代码并将 jar 放在 flume 的 lib
目录中,您现在可以在属性文件中定义 Serializer:
a1.sinks.sink1.serializer = org.apache.flume.serialization.AvroEventSerializer$Builder
序列化程序假定 avro 模式出现在每个事件的 header 中,可以是 URL 也可以是 LITERAL。要使用后一种方法(效率较低,但可能更容易尝试),您必须通过添加此属性告诉客户端的源将架构文字添加到每个事件:
a1.sources.src1.deserializer.schemaType = LITERAL
关于hadoop - Flume:Directory to Avro -> Avro to HDFS - Not valid avro after transfer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21617025/
我是一名优秀的程序员,十分优秀!