gpt4 book ai didi

java - 大数据微基准测试

转载 作者:塔克拉玛干 更新时间:2023-11-02 20:11:39 27 4
gpt4 key购买 nike

我目前正在研究我的论文项目,设计一个与最短路径图算法一起使用的缓存实现。图算法与运行时比较不一致,所以对整个算法进行基准测试太麻烦了。我必须专注于仅对缓存进行基准测试。

我需要进行基准测试的缓存是大约十几个 Map 接口(interface)的实现。这些缓存旨在与给定的访问模式(从上述算法中查询 key 的顺序)很好地配合使用。然而,在一个“小”问题的给定运行中,有几千亿个查询。我需要运行几乎所有这些程序才能对基准测试的结果充满信心。

我在将数据加载到内存中时遇到了概念性问题。可以创建一个查询日志,它只是在一次算法运行中查询的所有键(它们是 10 个字符的字符串标识符)的磁盘上有序列表。这个文件很大。我的另一个想法是将日志分成 1-5 百万个查询的 block ,并以下列方式进行基准测试:

  1. 加载 1-5 百万个 key
  2. 将开始时间设置为当前时间
  3. 按顺序查询
  4. 记录耗时(当前时间-开始时间)

我不确定这会对缓存产生什么影响。我怎样才能进行热身?加载文件可能会清除 L1 或 L2 缓存中最后一个 block 的所有数据。此外,维护一个 1-5 百万个元素的字符串数组有什么影响(甚至迭代它会扭曲结果)?

请记住访问模式很重要!例如,有一些散列表具有移动到最前面的启发式算法,它会重新排序表的内部结构。多次运行单个 block 或乱序运行 block 是不正确的。这使得预热 CPU 缓存和 HotSpot 变得更加困难(我也可以保留一个用于预热但不用于计时的辅助虚拟缓存)。

使用大型数据集进行微基准测试的最佳做法是什么?

最佳答案

如果我对问题的理解正确,如何将查询日志加载到一台机器上,如果你没有足够的内存,可以分块加载,然后通过专用网络(交叉电缆)将其流式传输到运行基准测试的机器上,可能),所以你在被测系统和测试代码/数据之间的干扰最小......?

无论您使用什么解决方案,您都应该尝试多次运行,以便评估可重复性 - 如果您没有获得合理的可重复性,那么您至少可以检测到您的解决方案不合适!

更新:回复:批处理和计时 - 在实践中,您可能最终会得到某种形式的细粒度批处理,至少可以有效地通过网络获取数据。如果您的数据属于自然的大“组”或阶段,那么我会分别对这些数据进行计时以检查异常情况,但最强烈地依赖于整体计时。我看不出对数千个小批量进行计时有多大好处(假设您正在运行数百万个)。

即使您在一台具有大量 RAM 的机器上运行所有内容,也可能值得在一个 JVM 中加载数据,在另一个 JVM 中加载测试代码,这样缓存 JVM 上的垃圾收集就不会(直接)受到影响保存查询日志所需的大堆。

关于java - 大数据微基准测试,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12824970/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com