- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在为非常高的索引吞吐量目的对 ElasticSearch 进行基准测试。
我目前的目标是能够在数小时内为 30 亿 (3,000,000,000) 份文档编制索引。为此,我目前有 3 台 Windows 服务器机器,每台机器有 16GB RAM 和 8 个处理器。插入的文档有一个非常简单的映射,只包含少数数字非分析字段(_all
已禁用)。
我可以达到每秒大约 120,000 个索引请求(使用大桌面进行监控),使用这个相对适中的装备,我相信吞吐量可以进一步提高。我正在使用许多 .net NEST 客户端来发送索引批量请求,其中批量有 1500 个索引操作。
不幸的是,每秒 120k 请求的吞吐量并没有持续很长时间,并且速率逐渐下降,几个小时后下降到 ~15k。
监控机器表明 cpu 不是瓶颈。然而,所有机器上的物理磁盘(不是 SSD)空闲时间似乎都在下降,达到不到 15% 的平均空闲时间。
将 refresh_interval
设置为 60s,然后设置为 300s,最后设置为 15m,似乎没有多大帮助。监视单个分片中的单个 translog,表明 translog 在达到 200MB 之前每 30 分钟刷新一次。
我尝试过使用两种分片策略:
这两种尝试都产生了非常相似的体验,我认为这是有道理的,因为它的碎片数量相同。
查看段,我可以看到大多数分片有大约 30 个已提交的段,以及类似数量的可搜索段。段大小变化。有一次,尝试用 max_num_segments=1 优化索引,完成后似乎有点帮助(花了很长时间)。
在任何时候,从头开始整个摄取过程,在删除使用过的索引并创建新索引之后 - 会导致相同的行为。最初索引吞吐量很高,但逐渐减少,远未达到 30 亿文档的目标。当时的索引大小约为120GB。
我使用的是 ElasticSearch 1.4 版本。 Xms 和 Xmx 配置为 8192MB,可用内存的 50%。索引缓冲区设置为 30%。
我的问题如下:
最佳答案
长话短说,我最终得到了 5 个虚拟 linux 机器,8 个 cpu,16 GB,使用 puppet 来部署 elasticsearch。我的文档变大了一点,但吞吐率也变大了(略微)。我能够平均达到 150K 索引请求/秒,在 2 小时内索引 10 亿个文档。吞吐量不是恒定的,我观察到与以前类似的吞吐量减少行为,但程度较小。由于我将对相同数量的数据使用每日索引,因此我希望这些性能指标每天都大致相似。
从 windows 机器到 linux 的转变主要是由于方便和符合 IT 惯例。虽然我不确定,但我怀疑在 Windows 上也可以实现相同的结果。
在我的几次试验中,我尝试按照 Christian Dahlqvist 的建议在不指定文档 ID 的情况下建立索引。结果令人吃惊。我观察到显着 吞吐量增加,在某些情况下达到 300k 甚至更高。结论很明显:除非绝对必要,否则不要指定文档 ID。
此外,我在每台机器上使用的碎片较少,这也有助于提高吞吐量。
关于ElasticSearch - 高索引吞吐量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27388521/
我正在寻找一种方法来创建根据价格选择我的产品的过滤器(选择下拉菜单)。 我知道这样的查询是完全可能的: SELECT * FROM products ORDER BY price ASC SELECT
函数参数中或显示尺寸时(高度,宽度)的顺序是否有约定? 最佳答案 我不知道大量的语言,但我使用过的语言(宽度,高度)。它更适合沿着 (x, y) 坐标线。 关于language-agnostic -
在我的表单中,我让用户输入房间的长度高度和宽度以获得 m2、m3 和瓦特的计算值。但是用户也应该能够直接输入 height 和 m2 来获取值。我尝试了很多语法,但 if else 不能正常工作。我知
我在 Elasticsearch 中创建了一个索引,看起来像 {"amazingdocs":{"aliases":{},"mappings":{"properties":{"Adj Close":{"
我有以下功能,我需要清除数据库中的所有图片列并移动到文件系统。当我一次性完成这一切时,内存太多并且会崩溃。我切换到递归函数并执行 20 次写入和批量操作。 我需要为大约 6 个表执行此操作。我的 Re
我正在编写一个函数来计算 PI 的值,并将其作为 double 值返回。到目前为止,一切都很好。但是一旦函数到达小数点后14位,它就不能再保存了。我假设这是因为 double 有限。我应该怎么做才能继
2020年是中国CDN行业从98年诞生到今天快速发展的第二十四年,相关数据显示,全国感知网速持续上扬,达到了3.29兆/秒,标志着在宽带中国的政策指导下,中国的网速水平正在大步赶上世界发达国家的水平
在 aerospike 集合中,我们有四个 bin userId、adId、timestamp、eventype,主键是 userId:timestamp。在 userId 上创建二级索引以获取特定用
$('#container').highcharts('Map', { title : { text : 'Highmaps basic demo'
有没有办法显示自定义宽度/高度的YouTube视频? 最佳答案 在YouTube网站上的this link中: You can resize the player by editing the obj
我使用 Highcharts ,我想在 Highcharts 状态下悬停时制作动态不同的颜色。 正如你可以看到不同的颜色,这就是我做的 var usMapChart , data = [] ; va
在所有节点上运行 tpstats 后。我看到很多节点都有大量的 ALL TIME BLOCKED NTR。我们有一个 4 节点集群,NTR ALL TIME BLOCKED 的值为: 节点 1:239
我发现 APC 上存在大量碎片 (>80%),但实际上性能似乎相当不错。我有 read another post这建议在 wordpress/w3tc 中禁用对象缓存,但我想知道减少碎片是否比首先缓存
对于我的脚本类(class),我们必须制作更高/更低的游戏。到目前为止,这是我的代码: import random seedVal = int(input("What seed should be u
我发现 APC 上存在大量碎片 (>80%),但实际上性能似乎相当不错。我有 read another post这建议在 wordpress/w3tc 中禁用对象缓存,但我想知道减少碎片是否比首先缓存
对于我的脚本类(class),我们必须制作更高/更低的游戏。到目前为止,这是我的代码: import random seedVal = int(input("What seed should be u
我已经 seen >2 字节的 unicode 代码点,如 U+10000 可以成对编写,如 \uD800\uDC00。它们似乎以半字节 d 开头,但我只注意到了这一点。 这个 split Actio
有人可以帮我理解为什么我的饼图百分比计算不正确吗?看截图: 根据我的计算,如 RHS 上所示,支出百分比应为 24.73%。传递给 Highcharts 的值如下:- 花费:204827099.36-
我阅读了有关该问题的所有答案,但我还没有找到任何解决方案。 我有一个应用程序,由我的 api 服务器提供。 Wildfly 8.1 和 Mysql 5.6。当查看时间到来时(Wildfly 服务器连接
我正在用选定的项目创建圆形导航。当用户单击任何项目时,它将移动到定义的特定点。一切都很好,除了当你继续点击项目时,当动画表现不同并且项目在 360 度圆中移动并且它被重置直到你重复场景时,我希望它
我是一名优秀的程序员,十分优秀!