java - 大数据微基准测试-6ren

java - 大数据微基准测试

转载作者：塔克拉玛干更新时间：2023-11-02 20:11:39

27

4

我目前正在研究我的论文项目，设计一个与最短路径图算法一起使用的缓存实现。图算法与运行时比较不一致，所以对整个算法进行基准测试太麻烦了。我必须专注于仅对缓存进行基准测试。

我需要进行基准测试的缓存是大约十几个 Map 接口(interface)的实现。这些缓存旨在与给定的访问模式(从上述算法中查询 key 的顺序)很好地配合使用。然而，在一个“小”问题的给定运行中，有几千亿个查询。我需要运行几乎所有这些程序才能对基准测试的结果充满信心。

我在将数据加载到内存中时遇到了概念性问题。可以创建一个查询日志，它只是在一次算法运行中查询的所有键(它们是 10 个字符的字符串标识符)的磁盘上有序列表。这个文件很大。我的另一个想法是将日志分成 1-5 百万个查询的 block ，并以下列方式进行基准测试:

加载 1-5 百万个 key
将开始时间设置为当前时间
按顺序查询
记录耗时(当前时间-开始时间)

我不确定这会对缓存产生什么影响。我怎样才能进行热身？加载文件可能会清除 L1 或 L2 缓存中最后一个 block 的所有数据。此外，维护一个 1-5 百万个元素的字符串数组有什么影响(甚至迭代它会扭曲结果)？

请记住访问模式很重要!例如，有一些散列表具有移动到最前面的启发式算法，它会重新排序表的内部结构。多次运行单个 block 或乱序运行 block 是不正确的。这使得预热 CPU 缓存和 HotSpot 变得更加困难(我也可以保留一个用于预热但不用于计时的辅助虚拟缓存)。

使用大型数据集进行微基准测试的最佳做法是什么？

最佳答案

如果我对问题的理解正确，如何将查询日志加载到一台机器上，如果你没有足够的内存，可以分块加载，然后通过专用网络(交叉电缆)将其流式传输到运行基准测试的机器上，可能)，所以你在被测系统和测试代码/数据之间的干扰最小......？

无论您使用什么解决方案，您都应该尝试多次运行，以便评估可重复性 - 如果您没有获得合理的可重复性，那么您至少可以检测到您的解决方案不合适!

更新:回复:批处理和计时 - 在实践中，您可能最终会得到某种形式的细粒度批处理，至少可以有效地通过网络获取数据。如果您的数据属于自然的大“组”或阶段，那么我会分别对这些数据进行计时以检查异常情况，但最强烈地依赖于整体计时。我看不出对数千个小批量进行计时有多大好处(假设您正在运行数百万个)。

即使您在一台具有大量 RAM 的机器上运行所有内容，也可能值得在一个 JVM 中加载数据，在另一个 JVM 中加载测试代码，这样缓存 JVM 上的垃圾收集就不会(直接)受到影响保存查询日志所需的大堆。

关于java - 大数据微基准测试，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12824970/

27

4

0

文章推荐： java - JTextPane 和悬挂缩进故障

文章推荐： android - 带选择器的自定义水平 ScrollView

微 Controller 类型转换改进
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 9 年前。 Improve th
微 Controller 寄存器的更干净的命名空间
使用微 Controller 时，通常您必须对寄存器进行写入和读取，为了使代码更具可读性，您需要定义寄存器地址及其位。这有点好，但是当您的寄存器名称彼此非常相似时，它很快就会变得困惑，例如此处所示 #
embedded - 微 Controller 环境中的原子操作是什么？
微 Controller 背景下的“原子操作”是什么？我正在研究 TI F28027 MCU。 The data sheet says that its operations are atomic
microcontroller - 微 Controller 的数据压缩
我正在用 PIC 微 Controller 做一个项目。我有一个 ADC 采样并将数据保存到 RAM 存储器，一旦 RAM 被填满，我需要使用 PIC 微 Controller 通过蓝牙发送它。我的
microcontroller - 微 Controller 中的堆栈内存分配
如何确定微 Controller 中特定程序所需的堆栈内存？例如，假设我有一个内部可能有许多子例程或线程的程序。在我开始执行程序之前，我想修复这个程序的堆栈大小。我如何标记堆栈的终点。最佳答案我
c - 微 Controller 的sprintf和printf有什么区别
我知道 printf 和 sprintf 之间的基本功能差异。但是，我想知道它们之间一些与时间/延迟相关的差异。显然，我想在我的一个自定义构建 RTOS 的任务中使用它。你怎么看？我想知道更多它会如
c - 微 Controller 编程
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
嵌入式软件编程资源(微 Controller 、EPROM)
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 5 年前。
logging - 微 Controller 上的错误记录
我有一个一般性的问题。我在微 Controller 上记录错误。但是微 Controller 的资源比 Windows 计算机更有限。在我的例子中，我将 64 个错误代码保存在一个队列中，由 Free
c - 微 Controller 中的主存储器是如何组织的？
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 6 年前。 Improve th
c - 微 Controller 计数器溢出和计数
假设我有一个时钟速度为 20 Mhz 的 8 位定时器。计时器在多少时间内可以计数多远而不溢出。或者1秒内溢出多少次？我知道它可以数到 255 并且会溢出最佳答案时间和频率之间的关系是t = 1/
c - 微 Controller 的模块化编程
我正在开展一个全面的长期 C 编程项目，该项目需要模块化编程方法。作为设计的一部分，将创建库，因此我想确认头文件组织的正确/错误解释: 问题假设您正在创建一个库。经过深思熟虑，您决定您希望构想的最终
c - 微 Controller 中的内存映射
1. #define timers ((dual_timers *)0x03FF6000) 这是 ARM 微 Controller 中使用的内存映射定义结构定义在哪里 2. struct dua
c - 微 Controller 中的图像接收
我购买了 LinkSprite JPEG 彩色相机和 LPC1768 mbed 微 Controller 。通过“LinkSprite”相机，我可以拍摄 jpeg 格式的图像，根据他们提供的教程，我可
c - 微 Controller 中的全局定时器时间中断
我有很多不同的时间来跟踪我的设计，但没有什么是 super 关键的。 10 毫秒 +/- 几毫秒根本不是什么大问题。但是可能有 10 个不同的定时器同时在不同的周期进行计数，显然我没有足够的专用定时器
Android + PIC 微 Controller
是否可以通过串行端口与 PIC 单片机通信 Android 应用程序？我可以使用哪些低成本手机？对不起，我是哥伦比亚人。最佳答案不确定 PIC，但是 Arduino可能是一个很好的引用点，并且有一
c - 微 Controller 内存分配
今天我一直在思考以下问题: 在一台普通的 pc 中，当你分配一些内存时，你向操作系统请求它，它会跟踪哪些内存段被占用，哪些内存段没有被占用，并且不要让你弄乱其他程序的内存等。但是微 Controlle
c - 微 Controller 的键盘扫描
我已经为微 Controller 的键盘开发了一个 c 驱动程序。我想改变它，例如，当我按下 1 时，它会显示 1，直到我按下另一个数字。截至目前，数字只有在我按下数字时才会改变，这意味着一旦我松开键
c - 微 Controller 中的多线程
我有一个在线程之间共享的 volatile unsigned char array LedState[5] 变量。数组中的每个索引表示一个状态。根据每个状态，LED 将以不同的顺序闪烁。一个线程设置数
无法正确调用子程序微 Controller PIC18F
我有一个项目要对微 Controller PIC18F 进行编程，我必须将一个开关电路连接到微 Controller 板上，这个开关电路有一个电锁和一个蜂鸣器要连接到它。锁最初是通电的。假设当我发送

首页

博学

6Ren·AI

商城

java - 大数据微基准测试