- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们几乎将 flex 搜索用作缓存,存储在时间窗口中找到的文档。我们不断插入许多不同大小的文档,然后使用结合日期过滤器的文本查询在ES中进行搜索,因此当前线程不会获取已经看到的文档。像这样:
“(((word1 AND word 2)OR(word3 AND word4))AND insertDate> 1389000”
我们使用TTL功能在 flex 搜索中将数据保留30分钟。如今,我们至少有3台机器每分钟每分钟插入大量新文件,并每隔一台机器连续不断地使用上述查询进行搜索。
我们在索引和检索这些文档时遇到很多麻烦,而ES索引和返回的文档吞吐量却不高。每秒甚至无法索引200个文档。
我们认为问题在于同时进行查询,插入和TTL删除。我们不需要保持旧数据具有 flex ,我们只需要在给定时间以较小的时间范围将具有 flex 索引的文档编入文档。
我们应该怎么做才能提高绩效?
提前致谢
机型:
最佳答案
TTL到基于时间序列的索引
您应该考虑使用基于时间序列的索引,而不是TTL功能。假设您只关心文档的最近30分钟窗口,请使用基于日期/时间的命名约定为每30分钟创建一个新索引: docs-201309120000,docs-201309120030,docs-201309120100,docs-201309120130等(请注意命名惯例中30分钟的增量。)
使用Elasticsearch的索引别名功能(http://www.elasticsearch.org/guide/reference/api/admin-indices-aliases/),您可以将docs
别名为最近创建的索引,以便在进行批量索引时,始终使用别名docs
,但是它们会被写入docs-201309120130
中。
查询时,您将过滤日期时间字段以确保仅返回最近30分钟的文档,并且您需要查询2个最近创建的索引以确保获得完整的30分钟的文档-您可以在这里创建另一个别名以指向两个索引,或者直接查询两个索引名称。
使用此模型,您没有使用TTL的开销,并且仅可以删除过去一个多小时内未使用的旧索引。
还有其他方法也可以提高批量索引和查询速度,但是我认为删除TTL将是最大的胜利-另外,您的索引仅具有有限的数据量以供筛选/查询,这应该提供一个不错的选择提速。
Elasticsearch设置(例如内存等)
这是我通常针对运行ES的服务器调整的一些设置-http://pastebin.com/mNUGQCLY,请注意,它仅适用于1GB VPS,因此需要进行调整。
节点角色
研究主数据,数据和“客户端” ES节点类型也可能对您有所帮助-http://www.elasticsearch.org/guide/reference/modules/node/
索引设置
进行批量插入时,请考虑同时修改index.refresh_interval
和index.merge.policy.merge_factor
的值-我看到您已将refresh_interval
修改为5s
,但考虑在批量索引操作之前将其设置为-1
,然后返回所需的时间间隔。或者,考虑在批量操作完成后手动执行_refresh
API手动命中,特别是如果您每分钟只进行批量插入-在这种情况下,这是受控环境。
使用index.merge.policy.merge_factor
,将其设置为更高的值可减少ES在后台执行的段合并数量,然后在批量操作恢复正常行为后恢复为默认值。通常建议为批量插入设置30
,默认值为10
。
关于performance - 使用Elasticsearch作为时间窗口存储的性能问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18742469/
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 8年前关闭。 Improve t
暂时忘记能力的定义,只关注能力的“检查”(使用“授权!”),我看到 CanCan 添加了大约 400 毫秒,用于简单地检查用户是否具有特定的能力主题/模型。 这是预期的吗(我假设不是)?或者,有没有可
我正在阅读有关 Swift 的教程 ( http://www.raywenderlich.com/74438/swift-tutorial-a-quick-start ),它预定义为不显式设置类型,因
这主要是由于对 SQL 问题的回答。由于性能原因,有意省略了 UDF 和子查询。我没有包括可靠性并不是说它应该被视为理所当然,但代码必须工作。 性能永远是第一位的吗?提供了许多以性能为主要优先事项的答
我已经编写了一个简单的测试平台来测量三种阶乘实现的性能:基于循环的,非尾递归的和尾递归的。 Surprisingly to me the worst performant was the loop o
我已将 ui-performance 插件应用到我的应用程序中。不幸的是,在开发模式下运行应用程序时它似乎不起作用。例如,我的 javascript 导入是用“vnull”版本呈现的。 例如 不会
我有一个我操作的 F# 引用(我在各处添加对象池以回收经常创建和删除的短期对象)。我想运行结果报价;现在我使用了 F# PowerPack,它提供了将引用转换为表达式树和委托(delegate)的方法
我正在尝试在 Spark 服务器上运行 SparklyR 库中的机器学习算法。 1 个簇 8 核 24G内存 Ubuntu 16.04 星火2.2 独立配置 1名师傅/2名 worker 每个执行器的
我有一个数据库(准确地说是在 postgres 上运行),具有以下结构: user1 (schema) | - cars (table) - airplanes (table, again) .
我的应用程序在我的 iPad 上运行。但它的表现非常糟糕——我的速度低于 15fps。谁能帮我优化一下? 它基本上是一个轮子(派生自 UIView),包含 12 个按钮(派生自 UIControl)。
在完成“Scala 中的函数式编程原则”@coursera 类(class)第 3 周的作业时,我发现当我实现视频类(class)中所示的函数联合时: override def union(tha
我正在重构我的一个 Controller 以使其成为一项服务,我想知道不将整个服务容器注入(inject)我的 Controller 是否会对性能产生影响。 这样效率更高吗: innova.path.
我有一个要显示的内容很大的文件。例如在显示用户配置文件时, 中的每个 EL 表达式需要一个 userId 作为 bean 的参数,该参数取自 session 上下文。我在 xhtml 文件中将这个 u
我非常了解 mipmapping。我不明白(在硬件/驱动程序级别)是 mipmapping 如何提高应用程序的性能(至少这是经常声称的)。在执行片段着色器之前,驱动程序不知道要访问哪个 mipmap
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: What's the (hidden) cost of lazy val? (Scala) Scala 允许定义惰
一些文章建议现在 build() 包含在 perform() 本身中,而其他人则建议当要链接多个操作时使用 build().perform()一起。 最佳答案 build() 包含在 perform(
Postgres docs说 For best optimization results, you should label your functions with the strictest vol
阅读Zero-cost abstractions看着 Introduction to rust: a low-level language with high-level abstractions我尝
我想在 MQ 服务器上部署 SSL,但我想知道我当前的 CPU 容量是否支持 SSL。 (我没有预算增加 CPU 内核和 MQ PVU 的数量) 我的规范: Windows 2003 服务器 SP2,
因此,我在 Chrome 开发者工具 的性能 选项卡内的时间 部分成功地监控了我的 React Native 应用程序的性能。 突然在应用程序的特定重新加载时,Timings 标签丢失。 我已尝试重置
我是一名优秀的程序员,十分优秀!