gpt4 book ai didi

hadoop - 如何将所有收集的推文提取到一个文件中

转载 作者:可可西里 更新时间:2023-11-01 14:56:07 26 4
gpt4 key购买 nike

我正在使用 Flume 收集推文并将它们存储在 HDFS 上。收集部分工作正常,我可以在我的文件系统中找到我所有的推文。

现在我想将所有这些推文提取到一个文件中。问题是不同的推文存储如下: enter image description here

正如我们所见,推文存储在 128 MB 的 block 中,但只使用了几个 Ko,这是 HDFS 的正常行为,如果我错了请纠正我。

但是,我怎样才能在一个文件中获取所有不同的推文呢?

这是我使用以下命令运行的 conf 文件:

flume-ng agent -n TwitterAgent -f ./my-flume-files/twitter-stream-tvseries.conf

twitter-stream-tvseries.conf :

TwitterAgent.sources = Twitter

TwitterAgent.channels = MemChannel

TwitterAgent.sinks = HDFS

TwitterAgent.sources.Twitter.type =org.apache.flume.source.twitter.TwitterSourceTwitterAgent.sources.Twitter.consumerKey=hiddenTwitterAgent.sources.Twitter.consumerSecret=hiddenTwitterAgent.sources.Twitter.accessToken=hiddenTwitterAgent.sources.Twitter.accessTokenSecret=hiddenTwitterAgent.sources.Twitter.keywords=GoT, GameofThrones

TwitterAgent.sources.Twitter.keywords=GoT, GameofThrones

TwitterAgent.sinks.HDFS.channel=MemChannelTwitterAgent.sinks.HDFS.type=hdfsTwitterAgent.sinks.HDFS.hdfs.path=hdfs://ip-addressl:8020/user/root/data/twitter/tvseries/tweetsTwitterAgent.sinks.HDFS.hdfs.fileType=DataStreamTwitterAgent.sinks.HDFS.hdfs.writeformat=TextTwitterAgent.sinks.HDFS.hdfs.batchSize=1000TwitterAgent.sinks.HDFS.hdfs.rollSize=0TwitterAgent.sinks.HDFS.hdfs.rollCount=10000TwitterAgent.sinks.HDFS.hdfs.rollInterval=600

TwitterAgent.channels.MemChannel.type=memoryTwitterAgent.channels.MemChannel.capacity=10000TwitterAgent.channels.MemChannel.transactionCapacity=1000

TwitterAgent.sources.Twitter.channels = MemChannelTwitterAgent.sinks.HDFS.channel = MemChannel

最佳答案

您可以将 HDFS 接收器配置为按时间、事件或大小生成消息。因此,如果您想保存多条消息直到达到 120MB 限制,请设置

hdfs.rollInterval = 0 # This is to create new file based on time
hdfs.rollSize = 125829120 # This is to create new file based on size
hdfs.rollCount = 0 # This is to create new file based on events (different tweets in your case)

关于hadoop - 如何将所有收集的推文提取到一个文件中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45187508/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com