database - 数据压缩如何比索引更有效地提高搜索性能？-6ren

database - 数据压缩如何比索引更有效地提高搜索性能？

转载作者：搜寻专家更新时间：2023-10-30 19:44:55

24

4

对于我们的应用程序，我们将大量数据保存在三个整数列(来源、类型和时间)的索引中。加载大量数据可能需要一些时间，我们已经实现了各种措施来减少必须为更大的查询搜索和加载的数据量，例如为不需要高分辨率的查询存储更大的粒度(时间-明智的)。

当在我们的备份文件中搜索数据时，数据存储在 bzip 文本文件中，但结构基本相同，我注意到解压缩到标准输出并通过 grep 管道传输比解压缩到磁盘和 grep 文件。事实上，untar-to-pipe 甚至比仅仅 grep 未压缩的文件(即打折 untar-to-disk)快得多。

这让我想知道磁盘 I/O 对性能的影响是否真的比我想象的要严重得多。所以这是我的问题:

您是否认为将多行数据放入单行的(压缩的)blob 字段并在提取期间动态搜索单行可能比通过表索引搜索相同行更快？

例如，而不是有这张表

CREATE TABLE data ( `source` INT, `type` INT, `timestamp` INT, `value` DOUBLE);

我愿意

CREATE TABLE quickdata ( `source` INT, `type` INT, `day` INT, `dayvalues` BLOB );

quickdata 中每一行的数据大约有 100-300 行，并在 blob 字段的解压缩和解码期间即时搜索所需的时间戳。

这对你来说有意义吗？我应该研究哪些参数？可能附加什么条件？存在哪些数据库功能(任何 DBMS)可以实现类似的效果？

最佳答案

This made me wonder if the performance impact of disk I/O is actually much heavier than I thought.

当然。如果你必须去磁盘，性能损失比内存大很多数量级。这让我想起了经典的 Jim Gray 论文，Distributed Computing Economics :

Computing economics are changing. Today there is rough price parity between (1) one database access, (2) ten bytes of network traffic, (3) 100,000 instructions, (4) 10 bytes of disk storage, and (5) a megabyte of disk bandwidth. This has implications for how one structures Internet-scale distributed computing: one puts computing as close to the data as possible in order to avoid expensive network traffic.

那么，问题是您有多少数据以及您能负担得起多少内存？

如果数据库真的变得很大——即使在 20 年内也没有人能负担得起那么大的内存——你需要像 Google 的 BigTable 这样聪明的分布式数据库系统。或 Hadoop .

关于database - 数据压缩如何比索引更有效地提高搜索性能？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26021/

24

4

0

文章推荐： iphone - 如何从不同的 Xcode 项目和计算机更新应用程序

文章推荐： java - 如何使用 hibernate JPA 注释映射嵌套集合 Map>？

文章推荐： java - JPA 中的深拷贝

ruby-on-rails - 如何生成文件，然后使用 Heroku 压缩/压缩？
我有点想做 the reverse of this. 我不想解压缩并将收集文件添加到 S3 应用户要求: 生成一堆xml文件使用一些图像(托管在 s3 上的预先存在的图像)压缩 xml 文件下载
apache - 压缩/压缩 javascript 和 css 文件
将此添加到域的虚拟主机后 AddOutputFilterByType DEFLATE application/javascript text/javascript text/css 响应头不包含任何内
apache 压缩压缩 .js 和 .css 文件未压缩？
在 Apache Im 中，通过将以下内容添加到我的 .htaccess 文件来启用输出压缩: # compress text, html, javascript, css, xml: AddOutp
压缩 HTTP
是否可以以压缩格式将请求数据从浏览器发送到服务器？如果是，我们该怎么做？最佳答案压缩从浏览器发送到服务器的数据是不受 native 支持在浏览器中。您必须找到一种解决方法，使用客户端语言(可
JavaScript 压缩
我正在寻找可以压缩JavaScript源代码的工具。我发现一些网络工具只能删除空格字符？但也许存在更好的工具，可以压缩用户的函数名称、字段名称、删除未使用的字段等。最佳答案经常用来压缩JS代码的工
压缩/合并数字组合的算法
使用赛马博彩场景，假设我有许多单独的投注来预测比赛的前 4 名选手 (superfecta)。赌注如下... 1/2/3/4 1/2/3/5 1/2/4/3 1/2/4/5 1/2/5/3
SQL 2008 压缩
我是一名实习生，被要求对 SQL 2008 数据压缩进行一些研究。我们想将 Outlook 电子邮件的几个部分存储在一个表中。问题是我们想将整个电子邮件正文存储在一个字段中，然后又想压缩它。使用 Ch
php - 压缩/减小视频的文件大小
我目前有一个系统，用户可以在其中上传 MP4 文件，并且可以在移动设备上下载该文件。但有时，这些视频的大小超过 5MB，在我国，大多数人使用 2G。因此，下载大型视频通常需要 15-20 分钟。有什
sql - 压缩/重复连接？
假设我有一个带有类型列的简单文档表: Documents Id Type 1 A 2 A 3 B 4 C 5 C 6 A 7 A 8 A 9 B 10 C 用户
r - 压缩/汇总R中的字符串开始和长度数据
我有一个较大字符串中的(子)字符串位置的 data.frame。数据包含(子)字符串的开头及其长度。可以很容易地计算出(子)字符串的结束位置。 data1 start length end #>
encryption - 编码、压缩
我想知道是否文件加密算法可以设计成它也可以执行文件压缩的事件(任何活生生的例子？)。我也可以将它集成到移动短信服务中，我的意思是短信吗？另外我想知道二进制文件...如果纯文本文件以二进制编码
image - PNG 压缩
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
javascript - 压缩 JavaScript
我们有几个具有大量 JavaScript 的 Java 项目，目前我们使用的是旧版本的 YUICompressor (2.4.2)。然而，我在这篇博文中发现 YUICompressor 正在 depr
ASP.NET 压缩
从之前关于尝试提高网站性能的文章中，我一直在研究 HTTP 压缩。我读过有关在 IIS 中设置它的信息，但它似乎是所有 IIS 应用程序池的全局事物，我可能不允许这样做，因为还有另一个站点在其上运行。
WCF REST 压缩
我有一个 REST 服务，它返回一大块 XML，大约值(value) 150k。例如http://xmlservice.com/services/RestService.svc/GetLargeXM
javascript - UglifyJS 压缩
我正在尝试获取一个简单的 UglifyJS (v2.3.6) 示例来处理压缩。具体来说，“未使用”选项，如果从未使用过，变量和函数将被删除。这是我在命令行上的尝试: echo "function
c - ZLIB 压缩
我正在开发一个项目，如果我的磁盘出现问题，我将在使用 ZLIB 压缩内存块后将其发送到另一个磁盘。然后我计划下载该转储并用于进一步调试。这种压缩和上传将一次完成一个 block - 比如说 1024
c - LZW 压缩
LZW 压缩算法在压缩后增加了位大小: 这是压缩函数的代码: // compression void compress(FILE *inputFile, FILE *outputFile) {
c# - 压缩/加密的最佳实践
我的问题与如何在 3D 地形上存储大量信息有关。这些信息应该是 secret 的，因为它们非常庞大，也应该被压缩。我选择了文件存储，现在我想知道将对象数据加密/压缩(或压缩/加密)到文件的最佳做法。
java - 压缩/压缩android上的文件夹
我使用以下代码来压缩我的文件并且效果很好，但我只想压缩子文件夹而不是在压缩文件中显示树的根。 public boolean zipFileAtPath(String sourcePath, Strin

首页

博学

6Ren·AI

商城

database - 数据压缩如何比索引更有效地提高搜索性能？