gpt4 book ai didi

hadoop - [HDFS connector + Kafka]单机模式下如何写多个主题?

转载 作者:可可西里 更新时间:2023-11-01 14:48:38 25 4
gpt4 key购买 nike

我正在使用 ConfluentHDFS 连接器 将流式数据写入 HDFS。我遵循了用户手册和 quick start并设置我的连接器。当我只使用一个主题时,它可以正常工作。我的属性文件看起来像这样

name=hdfs-sink
connector.class=io.confluent.connect.hdfs.HdfsSinkConnector
tasks.max=1
topics=test_topic1
hdfs.url=hdfs://localhost:9000
flush.size=30

当我添加多个主题时,我看到它不断地提交偏移量,但我没有看到它写入已提交的消息。

name=hdfs-sink
connector.class=io.confluent.connect.hdfs.HdfsSinkConnector
tasks.max=2
topics=test_topic1,test_topic2
hdfs.url=hdfs://localhost:9000
flush.size=30

我尝试将 tasks.max 设置为 1 和 2。我不断收到 Committing offsets 记录如下

[2016-10-26 15:21:30,990] INFO Started recovery for topic partition test_topic1-0 (io.confluent.connect.hdfs.TopicPartitionWriter:193)
[2016-10-26 15:21:31,222] INFO Finished recovery for topic partition test_topic1-0 (io.confluent.connect.hdfs.TopicPartitionWriter:208)
[2016-10-26 15:21:31,230] INFO Started recovery for topic partition test_topic2-0 (io.confluent.connect.hdfs.TopicPartitionWriter:193)
[2016-10-26 15:21:31,236] INFO Finished recovery for topic partition test_topic2-0 (io.confluent.connect.hdfs.TopicPartitionWriter:208)
[2016-10-26 15:21:35,155] INFO Reflections took 6962 ms to scan 249 urls, producing 11712 keys and 77746 values (org.reflections.Reflections:229)
[2016-10-26 15:22:29,226] INFO WorkerSinkTask{id=hdfs-sink-0} Committing offsets (org.apache.kafka.connect.runtime.WorkerSinkTask:261)
[2016-10-26 15:23:29,227] INFO WorkerSinkTask{id=hdfs-sink-0} Committing offsets (org.apache.kafka.connect.runtime.WorkerSinkTask:261)
[2016-10-26 15:24:29,225] INFO WorkerSinkTask{id=hdfs-sink-0} Committing offsets (org.apache.kafka.connect.runtime.WorkerSinkTask:261)
[2016-10-26 15:25:29,224] INFO WorkerSinkTask{id=hdfs-sink-0} Committing offsets (org.apache.kafka.connect.runtime.WorkerSinkTask:261)

当我正常停止服务 (Ctrl+C) 时,我看到它删除了 tmp 文件。我究竟做错了什么?正确的做法是什么?感谢对此的任何建议。

最佳答案

在过去一个月左右的时间里,我一直在为你在这里提到的同一个问题磕磕绊绊,直到今天我升级到 confluent 3.1.1 后,我一直无法深入了解它。东西开始按预期工作......

我是这样滚的

name=hdfs-sink
connector.class=io.confluent.connect.hdfs.HdfsSinkConnector
tasks.max=5
topics=accounts,contacts,users
hdfs.url=hdfs://localhost:9000
flush.size=1
hive.metastore.uris=thrift://localhost:9083
hive.integration=true
schema.compatibility=BACKWARD
format.class=io.confluent.connect.hdfs.parquet.ParquetFormat
partitioner.class=io.confluent.connect.hdfs.partitioner.HourlyPartitioner
locale=en-us
timezone=UTC

关于hadoop - [HDFS connector + Kafka]单机模式下如何写多个主题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40263793/

25 4 0
文章推荐: hadoop - 如何增加 Tez 的容器物理内存?
文章推荐: javascript - 如何防止过滤后