cassandra - 为什么在Cassandra中拥有大分区如此糟糕？-6ren

cassandra - 为什么在Cassandra中拥有大分区如此糟糕？

转载作者：行者123 更新时间：2023-12-04 10:03:06

25

4

我到处都看到了这个警告，但是找不到关于此主题的任何详细说明。

最佳答案

对于初学者

The maximum number of cells (rows x columns) in a single partition is 2 billion.

如果允许分区无限增长，则最终将达到此限制。

在该理论限制之外，还有与大分区对JVM和读取时间的影响相关的实际限制。这些实际限制在各个版本之间都在不断增加。这个实际的限制不是固定的，而是随数据模型，查询模式，堆大小和配置而变化的，这使得很难就太大的问题给出直接的答案。

从2.1和3.0早期版本开始，读取和压缩的主要成本来自反序列化索引，该索引将每个 column_index_size_in_kb标记为一行。您可以增加 key_cache_size_in_mb来进行读取，以防止不必要的反序列化，但这会减少堆空间并填充旧的gen。您可以增加列索引的大小，但会增加最坏情况下读取时的IO成本。 CMS和G1还有许多不同的设置，可以在读取这些大分区时调整对象分配中大量峰值的影响。我们正在积极努力改善这一状况，因此将来可能不再是瓶颈。

修复也只会降级(在最佳情况下)分区级别。因此，如果说您一直在追加一个分区，并且在不精确的时间比较该分区在2个节点上的哈希值(分布式系统实质上保证了这一点)，则必须对整个分区进行流式传输以确保一致性。增量维修可以减少这种影响，但是您仍在流式传输大量数据和磁盘波动很大，因此需要将它们不必要地压缩在一起。

您可能可以继续添加一些有问题的极端情况和方案。很多时候都可以读取大型分区，但是其中涉及的调整和极端情况并不值得，最好仅设计数据模型以使其与Cassandra期望的方式友好。我建议将目标定位为100mb，但您可以远远超出此范围。进入Gbs，您将需要开始考虑对其进行调整(取决于数据模型，用例等)。

关于cassandra - 为什么在Cassandra中拥有大分区如此糟糕？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46272571/

25

4

0

文章推荐： arrays - 将字节数组转换为类似字节的对象？

文章推荐： reason - 如何在 BuckleScript bsconfig.json 中定位子目录

文章推荐： TypeORM 不创建表、列等

algorithm - 拥有/想要列表匹配算法
拥有/想要列表匹配算法我正在一个高流量网站上实现一个元素交易系统。我有大量用户，每个用户都为许多特定项目维护一个 HAVE 列表和一个 WANT 列表。我正在寻找一种算法，使我能够根据您的 HAVE
mercurial - 拥有 .hgtags 的目的是什么
我可以知道拥有 .hgtags 的目的是什么吗？我可以删除它吗？因为它不在 .hg文件夹，似乎“污染”了我的实际源代码目录。 https://bz.mercurial-scm.org/show_bug
c++ - 拥有 [[nodiscard]] 类型的理由是什么？
在哪些用例中使用 [[nodiscard]] 有益类型？关于类型，[[nodiscard]]如果任何返回该类型实例的函数的返回值被省略，则发出警告； (引自 p0068r0): If [[nodis
c++ - 拥有 unique_ptr 对象的唯一所有权意味着什么？
我知道当一个对象只有一个所有者时使用std::unique_ptr，当一个对象有多个所有者时使用std::shared_ptr。成为对象的唯一所有者意味着什么？成为唯一所有者是否意味着其他人都无法看
go - 拥有 vendor 文件夹有什么好处？
我无法真正理解拥有 vendor 文件夹的目的。根据我了解到的情况， vendor 文件夹似乎只有在您尝试使您的存储库与早于 1.11 的 golang 版本兼容时才有用。 .我们正在运行 golan
c++ - 我什么时候需要使用/拥有 makefile？
我正在尝试学习如何在 Raspberry PI 上编码。我来自使用 Windows 和 VS Code 进行编码。现在我使用 Linux Mint 19.1 和 ssh 访问 Raspbian 4.1
c# - 拥有 "generic"枚举是不好的做法吗？
我有一个带有“BlockType”枚举的图形程序。根据州的不同，这可能是以下几种情况之一:木头、石头、草地等。最初，必须针对每种可能性执行各种纹理操作，但由于进行了一些重构，枚举仅用作整数，swit
postgresql - 拥有 2 个或更多具有相同列的表是好的做法吗？
我正在创建一个网络应用程序，让用户可以搜索餐馆和咖啡馆。由于我目前除了类型之外没有其他数据来区分这两者，所以我有两种存储餐馆列表的选择。对餐厅和咖啡馆使用同一张表，并使用枚举(文本)列说明条目是餐厅
python - 拥有 django 项目的主数据库
我有一个 5 人的小团队，我需要帮助寻找有关如何拥有一个集中式 MySQL 数据库的资源或建议。我们都以虚拟方式工作，并将所有文件托管在一个 github 上以集中所有内容。因此，在不同的计算机上拥有
mysql - 拥有 count(*) MySQL
SELECT dnum , SUM(IF(salary>20000, 1, 0)) AS Employee FROM project INNER JOIN works_on ON pno=pnumbe
javascript - 拥有 2 个属性的数组的最佳方式是什么？
我想在 javascript 中有一个数组，其中每个项目包含 2 个属性而不是 1 个，这怎么可能？默认情况下，以下内容仅向项目添加一个属性: var headerCellWidths = new
html - 拥有 P 标签不会插入其他类
我确定我对这个问题的措辞很糟糕，但这是我的问题: 我正在创建一长串地毯，每 block 地毯都有图片、标题、尺寸、原价和清仓价。我将每 block 地毯都放在自己的类别中，并对其余的地毯重复这样的操作
c++ - 拥有 2 个较小的渲染目标还是一个较大的渲染目标更好？
我正在编写一个延迟渲染器，并试图打包我的 gbuffer。将漫反射和高光存储在一起会更好吗: vec4 difSpec = (diffuse.xyz, specular) // FORMAT_RGB
c++ - 拥有 constexpr 静态字符串会导致链接器错误
下面的程序给我一个链接时错误: #include struct Test { static constexpr char text[] = "Text"; }; int main() { s
linux - 拥有 Linux 思维框架对成为更好的嵌入式程序员有帮助吗？
想知道 - 如果了解Linux 的生活方式或 Linux 架构，是否会为在嵌入式设备上编程提供更好的思路，尤其是当它们具有某种操作系统时。只是想确定我没有错过任何重要的事情:) 注意: 我来自 wi
ios - 拥有 "generic"配置文件是不好的做法还是坏主意？
如果要测试 iPhone 应用程序，拥有一个开发代码签名条款来运行任何带有 com.mydomain.* 的应用程序是不是一个坏主意？为什么？编辑: 请参阅上面的斜体编辑。最佳答案我对此表示怀
ios - 使用迦太基时调试(拥有)框架
我正在开发我自己的 Swift 框架，以便在我的两个应用程序之间私下使用。我正在使用 Carthage 来管理该依赖项和其他依赖项。我终于完成了框架的开发并将其连接到我的一个应用程序，毫不奇怪，该应
c++ - 指针是否有可能在没有任何数据拷贝的情况下由 vector 拥有？
如果我有一个 C 类型的原始指针，是否可以从拥有指针数据的相同类型创建一个 std::vector 而无需任何数据复制(仅 move )？促使我问这个问题的是 std::vector 的 data()
c - 拥有 .bss 部分有什么好处？
有 2 个部分的好处是什么 - .data 和 .bss 用于流程范围变量。为什么不只拥有一个呢？我知道每个部分的用途。我正在使用 gcc。最佳答案 .bss 消耗“内存”但不消耗可执行文件中的空间
flutter - 拥有 StatelessWidget 的原因是什么？
我注意到，我们可以使用 StatefulWidget 构建 UI 的任何部分，而无需担心状态。我想问的很简单，当我们可以将任何 UI 类构建为 StatefulWidget 时，首先拥有 State

首页

博学

6Ren·AI

商城

cassandra - 为什么在Cassandra中拥有大分区如此糟糕？