- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在尝试设置 Flume-NG 以从一堆服务器(主要运行 Tomcat 实例和 Apache Httpd)收集各种类型的日志,并将它们转储到 5 节点 Hadoop 集群上的 HDFS 中。设置如下所示:
每个应用程序服务器将相关日志拖尾到一个 Exec Sources(每个日志类型一个:java、httpd、syslog),通过 FileChannel 将它们输出到 Avro sink。在每台服务器上,不同的源、 channel 和接收器由一个代理管理。事件由驻留在 Hadoop 集群(同时托管 SecondaryNameNode 和 Jobtracker 的节点)上的 AvroSource 获取。对于每种日志类型,都有一个监听不同端口的 AvroSource。事件通过 FileChannel 进入 HDFS Sink,HDFS Sink 使用 FlumeEventAvro EventSerializer 和 Snappy 压缩保存事件。
问题:Hadoop 节点上管理 HDFS 接收器(同样,每种日志类型一个接收器)的代理在几个小时后失败,因为我们没有更改 JVM 的堆大小。从那时起,在该节点上的 FileChannel 中收集了大量事件,之后也在应用服务器上的 FileChannel 中收集了很多事件,因为 Hadoop 节点上的 FileChannel 达到了它的最大容量。当我解决这个问题时,我无法让 Hadoop 节点上的代理足够快地处理积压工作以恢复正常运行。 FileChannel 在接收事件之前保存事件的 tmp 目录的大小一直在增长。此外,HDFS 写入似乎真的很慢。有没有办法强制 Flume 在摄取新事件之前先处理积压?以下配置是否最优?可能相关:写入 HDFS 的文件非常小,大约 1 - 3 MB 左右。对于 64MB 的 HDFS 默认 block 大小以及 future 的 MR 操作,这肯定不是最佳选择。我应该使用什么设置来收集足够大到 HDFS block 大小的文件中的事件?我感觉 Hadoop 节点上的配置不正确,我怀疑 BatchSize、RollCount 和相关参数的值已关闭,但我不确定最佳值应该是多少。
agent.sources=syslogtail httpdtail javatail
agent.channels=tmpfile-syslog tmpfile-httpd tmpfile-java
agent.sinks=avrosink-syslog avrosink-httpd avrosink-java
agent.sources.syslogtail.type=exec
agent.sources.syslogtail.command=tail -F /var/log/messages
agent.sources.syslogtail.interceptors=ts
agent.sources.syslogtail.interceptors.ts.type=timestamp
agent.sources.syslogtail.channels=tmpfile-syslog
agent.sources.syslogtail.batchSize=1
...
agent.channels.tmpfile-syslog.type=file
agent.channels.tmpfile-syslog.checkpointDir=/tmp/flume/syslog/checkpoint
agent.channels.tmpfile-syslog.dataDirs=/tmp/flume/syslog/data
...
agent.sinks.avrosink-syslog.type=avro
agent.sinks.avrosink-syslog.channel=tmpfile-syslog
agent.sinks.avrosink-syslog.hostname=somehost
agent.sinks.avrosink-syslog.port=XXXXX
agent.sinks.avrosink-syslog.batch-size=1
agent.sources=avrosource-httpd avrosource-syslog avrosource-java
agent.channels=tmpfile-httpd tmpfile-syslog tmpfile-java
agent.sinks=hdfssink-httpd hdfssink-syslog hdfssink-java
agent.sources.avrosource-java.type=avro
agent.sources.avrosource-java.channels=tmpfile-java
agent.sources.avrosource-java.bind=0.0.0.0
agent.sources.avrosource-java.port=XXXXX
...
agent.channels.tmpfile-java.type=file
agent.channels.tmpfile-java.checkpointDir=/tmp/flume/java/checkpoint
agent.channels.tmpfile-java.dataDirs=/tmp/flume/java/data
agent.channels.tmpfile-java.write-timeout=10
agent.channels.tmpfile-java.keepalive=5
agent.channels.tmpfile-java.capacity=2000000
...
agent.sinks.hdfssink-java.type=hdfs
agent.sinks.hdfssink-java.channel=tmpfile-java
agent.sinks.hdfssink-java.hdfs.path=/logs/java/avro/%Y%m%d/%H
agent.sinks.hdfssink-java.hdfs.filePrefix=java-
agent.sinks.hdfssink-java.hdfs.fileType=DataStream
agent.sinks.hdfssink-java.hdfs.rollInterval=300
agent.sinks.hdfssink-java.hdfs.rollSize=0
agent.sinks.hdfssink-java.hdfs.rollCount=40000
agent.sinks.hdfssink-java.hdfs.batchSize=20000
agent.sinks.hdfssink-java.hdfs.txnEventMax=20000
agent.sinks.hdfssink-java.hdfs.threadsPoolSize=100
agent.sinks.hdfssink-java.hdfs.rollTimerPoolSize=10
最佳答案
我在您的配置中看到一些可能导致问题的事情:
您的第一个代理似乎有一个批量大小为 1 的 avro 接收器。您应该将其提高到至少 100 或更多。这是因为第二个代理上的 avro 源将提交到批量大小为 1 的 channel 。每次提交都会导致 fsync,从而导致文件 channel 性能不佳。 exec 源上的批量大小也是 1,导致该 channel 也很慢。您可以增加批处理大小(或使用假脱机目录源 - 稍后会详细介绍)。
您可以让多个 HDFS 接收器从同一 channel 读取数据以提高性能。您应该只确保每个接收器写入不同的目录或具有不同的“hdfs.filePrefix”,这样多个 HDFS 接收器就不会尝试写入相同的文件。
您的 HDFS 接收器的批处理大小是 20000,这是相当高的,您的 callTimeout 是默认的 10 秒。如果你想保持如此巨大的批量大小,你应该增加“hdfs.callTimeout”。我建议将批量大小减少到 1000 左右,超时时间约为 15-20 秒。 (请注意,在当前批大小下,每个文件仅包含 2 个批处理 - 因此请减小批处理大小,增加 rollInterval 和 timeOut)
如果您使用的是 tail -F,我建议您试用新的 Spool Directory Source。要使用此源,请将您的日志文件轮换到假脱机目录源处理的目录。此源将仅处理不可变的文件,因此您需要将日志文件轮换出来。如 Flume 用户指南中所述,将 tail -F 与 exec 源一起使用会出现问题。
关于hadoop - 在接收器失败后,我如何强制 Flume-NG 处理积压的事件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14613761/
我正在尝试将 WPF CodeBehid 事件(如 Event、Handler、EventSetter)转换为 MVVM 模式。我不允许使用 System.Windows.Controls,因为我使用
我可能误解了 Backbone 中的事件系统,但是当我尝试以下代码时什么也没有发生。当我向 Backbone.Events 扩展对象添加新属性时,它不应该触发某种更改、更新或重置事件吗?就像模型一样吗
我遇到了一个简单的问题,就是无法弄清楚为什么它不起作用。我有一个子组件“app-buttons”,其中我有一个输入字段,我想听,所以我可以根据输入值过滤列表。 如果我将输入放在我有列表的根组件中,一切
System.Timers.Timer 的 Elapsed 事件实际上与 System.Windows.Forms.Timer 的 Tick 事件相同吗? 在特定情况下使用其中一种比使用另一种有优势吗
嗨,这个 javascript 代码段是什么意思。(evt) 部分是如此令人困惑.. evt 不是 bool 值。这个怎么运作? function checkIt(evt) { evt
我正在使用jquery full calendar我试图在事件被删除时保存它。 $('calendar').fullCalendar ({
我有两个链接的鼠标事件: $('body > form').on("mousedown", function(e){ //Do stuff }).on("mouseup", function(
这是我的代码: $( '#Example' ).on( "keypress", function( keyEvent ) { if ( keyEvent.which != 44 ) {
我尝试了 dragOver 事件处理程序,但它没有正常工作。 我正在研究钢琴,我希望能够弹奏音符,即使那个键上没有发生鼠标按下。 是否有事件处理程序? 下面是我正在制作的钢琴的图片。 最佳答案 您应该
当悬停在相邻文本上时,我需要使隐藏按钮可见。这是通过 onMouseEnter 和 onMouseLeave 事件完成的。但是当点击另外的文本时,我需要使按钮完全可见并停止 onMouseLeave
我有ul标签内 div标签。我申请了mouseup事件 div标记和 click事件 ul标签。 问题 每当我点击 ul标签,然后都是 mouseup和 click事件被触发。 我想要的是当我点击 u
我是 Javascript 和 jQuery 的新手,所以我有一个非常愚蠢的疑问,请耐心等待 $(document).click(function () { alert("!"); v
我有一个邮政编码解析器,我正在使用 keyup 事件处理程序来跟踪输入长度何时达到 5,然后查询服务器以解析邮政编码。但是我想防止脚本被不必要地调用,所以我想知道是否有一种方法可以跟踪 keydown
使用事件 API,我有以下代码来发布带有事件照片的事件 $facebook = new Facebook(array( "appId" => "XXX", "se
首次加载 Microsoft Word 时,既不会触发 NewDocument 事件也不会触发 DocumentOpen 事件。当 Word 实例已打开并打开新文档或现有文档时,这些事件会正常触发。
我发现了很多相关问题(这里和其他地方),但还没有具体找到这个问题。 我正在尝试监听箭头键 (37-40) 的按键事件,但是当以特定顺序使用箭头键时,后续箭头不会生成“按键”事件。 例子: http:/
给定的 HTML: 和 JavaScript 的: var $test = $('#test'); $test.on('keydown', function(event) { if (eve
我是 Node.js 的新手,希望使用流运行程序。对于其他程序,我必须同时启动一个服务器(mongodb、redis 等),但我不知道我是否应该用这个运行一个服务器。请让我知道我哪里出了问题以及如何纠
我正在尝试使用 Swift 和 Cocoa 创建一个适用于 OS X 的应用程序。我希望应用程序能够响应关键事件,而不将焦点放在文本字段上/文本字段中。我在 Xcode 中创建了一个带有 Storyb
我有以下代码: (function(w,d,s,l,i){ w[l]=w[l]||[];w[l].push({
我是一名优秀的程序员,十分优秀!