- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想了解在 Cassandra (v1.2) 中获取大量顺序存储在磁盘中的行时涉及的开销是多少。
具有以下架构:
PKEY(时间戳,设备 ID)。
每条记录为80字节。
我正在尝试获取特定时间戳 (partitionID) 的所有行。
从 TimeStamp = ‘…’ 的架构中选择 *
每个时间戳有 500K 个这样的行。我已经发现进行分页会比尝试一次获取所有内容提供更好的吞吐量。因此,要获取 500 K 行(40 MB),使用 1000/10000 的页面大小,大约需要 25-30 秒(我使用的是 Astyanax)。我有以下问题:
(A) 我正在查询的所有数据是否会按特定时间戳顺序存储在磁盘中(是的,我已经运行了压缩命令)?
(B) 如果第一个问题的答案是肯定的,那么为什么我无法获得与磁盘 (40 MB/s) 相等的吞吐量?请注意,我能够在 25 到 30 秒内检索到 40 MB 的数据,换算成不到 1.5 MB/s。
(C) 如果上面第一个问题的答案是肯定的,那我可以进一步加快响应速度吗?
(D) 序列化/反序列化是吞吐量低的罪魁祸首吗?如果是这样,是否可以采取一些措施来完全避免这种情况?
最佳答案
A) 这取决于您为集群配置的分区程序(在 cassandra.yaml 文件中),因为您是新手,您可能使用的是默认设置的分区程序 (MurMur3Partitioner),这意味着您的问题的答案是不,数据被拆分到1个或多个物理节点内的monsgt不同节点(或虚拟节点),这意味着数据存储在磁盘上和不同物理节点上的不同部分。
B) 对 A 的回答是否定的,所以可能不是
C) 对 B 的回答是否定的,您仍然应该能够对不同的查询进行计时并检测瓶颈以提高速度。运行此命令后使用 cqlsh:
cqlsh> 跟踪现在跟踪请求。
并运行您要检查的查询,并查看节点之间的不同交互。在使用 ButeOrderedPartitioner 时,您可以使用它来检查 fiven partitionID 是否以您需要的方式存储
D) 这应该不是问题,但以防万一在 cqlsh 上运行相同的查询并跟踪请求的时间,如 C 中所述
希望对您有所帮助!
关于cassandra - 在 Cassandra 中为 partitionID 获取许多(500K)行的开销,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15516782/
我在运行 Function 应用程序时遇到以下错误。 版本:V2 功能应用 从 Visual Studio 2017 运行 [1/17/2019 3:29:11 AM] The listener fo
我们如何从 KafkaStream 获取主题名称和分区 ID。对于任何其他 Kafka 消费者,我们可以获得主题名称和 partitionId,如下所示: ConsumerRecords re
我想了解在 Cassandra (v1.2) 中获取大量顺序存储在磁盘中的行时涉及的开销是多少。 具有以下架构: 时间戳 设备编号 设备名称 设备所有者 设备颜色 PKEY(时间戳,设备 ID)。 每
我正尝试按照教程实现接收器部分 https://azure.microsoft.com/en-us/documentation/articles/event-hubs-java-ephjava-get
我是一名优秀的程序员,十分优秀!