integration-testing - 使用 HyperLogLog 对代码进行可靠的集成测试？-6ren

integration-testing - 使用 HyperLogLog 对代码进行可靠的集成测试？

转载作者：行者123 更新时间：2023-12-04 21:08:17

25

4

我们在 Algebird 中使用 Twitter 的 HyperLogLog 实现。给定一个数字 N 和我们系统中的一个检查，它使用 HyperLogLog 来估计一个逐渐增长的集合的当前大小并测试它是否大于或小于 N，我们如何编写一个集成或系统测试来测试这个检查并且是几乎可以保证通过，如果我们调用 HyperLogLog 的代码是正确的？被测系统是不确定的，因为一方面，它是多线程的。

我的第一个想法是编写对这个用例可靠的集成测试的正确方法是“放弃我们的标准”。那么，发布到端点的足够数量的项目 (M) 是多少，以确保 HyperLogLog 将估计项目总数超过 N，并且概率大于等于 0.999999？

或者有更好的方法吗？

标准错误范围是可配置的，但这并不能直接告诉我们我们偶尔可能会看到的最大错误范围 - 这是我关心的，以避免在主服务器上随机失败的 CI 构建导致浪费时间和头发——拉!

我还担心我们在测试中生成随机数据的方式可能不会在相关方面生成均匀分布的随机数据，这可能会对概率计算产生重大影响。

最佳答案

让我们稍微分解一下。您要测试的主要行为有两种:

Twitter HyperLogLog 实现正确执行，即它给出了对项目数量的良好估计。

使用 HyperLogLog 结构(例如计数器)的代码会在适当的时候增加它们。

请注意，在构建时使用单元测试而不是集成测试很容易测试行为 #2。这是可取的，可以解决大多数问题。

案例#1 也可以分为三种情况:

A、当项目数为0时；

B、当元素数量较少时(5、100或1000)；

C、当项目数量很大时(百万/十亿)。

同样，案例 A 和 B 可以并且应该在构建时使用单元测试进行测试。您应该根据您的应用程序决定可接受的误差范围，并让 UT 断言估计在这些范围内 - 您选择 HyperLogLog 作为基础估计方法并不重要，测试应该将估计器视为黑盒.总的来说，我会说 10% 的错误对于大多数用途是合理的，但这实际上取决于您的特定应用程序。这些界限应该代表您的应用程序可以承受的最差精度。例如，严重错误的计数器可能根本无法承受任何估计错误，因此使用 HyperLogLog 应该会破坏单元测试。不同用户数量的计数器可能能够承受高达 50% 的估计误差 - 这取决于您。

因此，我们只剩下最后一种情况——测试 HyperLogLog 实现是否对大量项目给出了很好的估计。这是不可能在构建时测试的，实际上集成测试是可行的方法。然而，根据您对 Twitter 的 HyperLogLog 实现的信任程度，您可能会考虑完全不测试——Twitter 应该已经这样做了。这似乎违反了最佳实践，但考虑到可能与集成测试相关的开销，在您的情况下可能是值得的。

如果您选择编写集成测试，则需要对生产中预期的流量进行建模，并从多个来源生成它，因为您将生成数百万/数十亿的请求。您可以保存实际生产流量的样本并将其用于测试(可能是最准确的方法)，或者计算出您的流量是什么样子并生成外观相似的测试流量。同样，应根据应用程序选择误差界限，并且您应该能够在不破坏测试的情况下将估计方法换成更好的方法。

关于integration-testing - 使用 HyperLogLog 对代码进行可靠的集成测试？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40396415/

25

4

0

文章推荐： sql - 服务器端 sql 与客户端 sql

文章推荐： couchdb - 在 CouchDB 2 中复制用于备份的分片

integration - 软件规划 : integration
我目前是一群学生的团队负责人，他们正在为一门类(class)的项目工作，该类(class)目前由电气和计算机工程专业的学生组成。我是一名电气工程专业的学生，我还没有开始研究该项目的软件组件。我觉得
spring-integration - 如何调试spring-integration
我们对 spring-integration 非常满意，除非事情没有按预期工作。然后真的很难找出发生了什么(我们使用的是xml配置)。有人可以将我指向 spring 集成组件背后的 java 组件以便
python - python 中的函数 "integrate.quad"和 R 中的 "integral",'integrate' 给出错误的结果
我需要评估几个积分，我正在使用正常 (0,1) 密度来测试。在 python 中 import scipy.integrate as integrate import scipy.stats imp
spring-integration - Spring Integration - 如何保留原始有效负载并在以后使用它？
我想保留原始请求的原始有效负载并将其放在 xslt-transformer 或其他操作中。我丢失了它，因为我使用了 xslt-transformer，并且我只需要转换中的一些元素。所以我的场景是: 1
spring-integration - Spring Integration 中的不可变消息
我想知道在 Spring Integration 中使消息不可变的原因是什么。仅仅是因为多线程环境中的线程安全吗？表现？当您每次要向现有消息添加某些内容时都必须创建新消息时，您不会受到性能惩罚吗？
spring-integration - Spring Integration 消息流中的条件重试建议？
我有一个偶尔会返回 503 错误的 http 网关调用。我想配置 retry advice围绕那个调用，但我不想为每个错误都这样做，只是 503s。我已经配
spring-integration - Spring Integration Aggregator 组超时值的问题
我们正在使用 Spring Integration 4.2.3 聚合器组件和定义的组超时，并期望组在给定的超时值内超时，同时向组添加消息和发布大小标准不满足。但我们看到了不同的结果，当我们向服务输入
spring-integration - 如何在 Spring-Integration 邮件支持中轮询多封电子邮件
我需要轮询邮件服务器。由于我的项目已经在 Spring 中，我使用 Spring-Integration 来轮询邮件服务器。我在这方面很成功。但现在我必须轮询多封电子邮件。有人可以告诉我该怎么做吗。
continuous-integration - 如何从 "Arcane Integration"迁移到持续集成？
现在，我正在从事的项目已经达到了一个复杂的水平，需要完成多个步骤(实际上，它变得不可思议!)才能生产出完整/可用的产品。不幸的是，我们并不是从Continuos Integration的心态开始的，所
spring-integration - 什么时候应该使用 Spring Integration 或相关框架？
哪些指标表明应该使用企业集成模式框架？另一方面，哪些指标表明应该坚持使用简单的旧代码进行逻辑流？就我而言，我们将 Spring Integration 应用于映射/处理应用程序，该应用程序从数据库读
spring-integration - Spring Integration JMS DSL
我们在 XML 中有以下工作配置，并正在尝试转换为 DSL。不确定它们是否等效，也尝试使用 inboundAdapter。但是，我无法弄清楚如何在那里设置与并发相关的值。有人可以建议他们是否在 DSL
haskell - 从 Integral a => ([a],[a],[a]) 的值中获取 Integral a => [a] 类型的值
所以我在玩这个: factors :: Integral a => a -> [a] factors n = filter (\d -> n `rem` d == 0) . takeWhile (\d
spring-integration - Spring Integration 同步/异步消息流
我是 Spring 集成的新手，正在尝试建模一个流程，其中我通过 HTTP 进行同步请求和响应，但也是交付的同一流程的一部分将响应发送到队列，对其进行后处理，并让一个单独的进程使用该响应。所以从调用流
spring-integration - 动态实例化 Spring Integration 流程
我有一个 Spring Integration Flow 项目，它公开了一个 Rest 网关，在收到 Rest POST 请求后，它会执行一些小逻辑。基于一些有效负载参数，我想动态激活另一个 Spri
spring-integration - Spring Integration 的高吞吐量、事务性使用
我浏览了 Internet，在 Spring 论坛上发帖，并阅读了几乎全部在线文档，但我无法弄清楚 Spring Integration 是否可以在单个多资源 (JTA) 事务中处理多个消息。这对于我
spring-integration - Spring Integration 示例::聚合器
我正在查看 spring-projects/spring-integration-samples 中的聚合器示例。 https://github.com/spring-projects/spring-
spring-integration - Spring Integration 示例::聚合器
我正在查看 spring-projects/spring-integration-samples 中的聚合器示例。 https://github.com/spring-projects/spring-
spring-integration - 处理 Spring-Integration 转换器中的异常
我有一个 spring-integration接受 org.w3c.dom.Document 并返回域对象的转换器。这很好。如果缺少元素，我会引发应用程序异常。但是，我想将该异常放到错误 chann
python - scipy.integrate.ode.integrate() 是如何工作的？
我显然已经通读了 documentation , 但我无法找到更详细的幕后情况描述。具体来说，有几个行为我很疑惑: 一般设置 import numpy as np from scipy.integra
spring-integration - 如何停止或更改 Spring Integration Poller 的延迟
我正在使用 Spring Integration 使用以下配置从目录中读取文件。但是，我希望在找到任何文件后停止轮询，直到服务不再重新启动为止。有什么方法可以在运行时更改轮询器延迟或在运行时启动/停止

首页

博学

6Ren·AI

商城

integration-testing - 使用 HyperLogLog 对代码进行可靠的集成测试？