matlab - matlab 可解释的 C++ 中的简单压缩算法-6ren

matlab - matlab 可解释的 C++ 中的简单压缩算法

转载作者：行者123 更新时间：2023-12-02 22:30:24

24

4

我正在生成约 100 万个文本文件，其中包含 double 组、制表符分隔(这些是用于研究的模拟)。下面的示例输出。我预计每百万个文本文件约为 5 TB，这是 Not Acceptable 。所以我需要压缩。

但是，我所有的数据分析都会在matlab中完成。每个 matlab 脚本都需要访问所有这些文本文件。我无法使用 C++ 解压整个百万，然后运行 matlab 脚本，因为我缺少 HD 空间。所以我的问题是，是否有一些非常简单、易于实现的算法或其他方法来减小我的文本文件大小，以便我可以用 C++ 编写压缩并在 matlab 中读取它？

示例文本文件

0.0220874   0.00297818  0.000285954 1.70E-05    1.52E-07
0.0542912   0.00880725  0.000892849 6.94E-05    4.51E-06
0.0848582   0.0159799   0.00185915  0.000136578 7.16E-06
0.100415    0.0220033   0.00288016  0.000250445 1.38E-05
0.101889    0.0250725   0.00353148  0.000297856 2.34E-05
0.0942061   0.0256  0.00393893  0.000387219 3.01E-05
0.0812377   0.0238492   0.00392418  0.000418365 4.09E-05
0.0645259   0.0206528   0.00372185  0.000419891 3.23E-05
0.0487525   0.017065    0.00313825  0.00037539  3.68E-05

如果重要的话......完整的文本文件代表联合概率质量函数，所以它们总和为 1。我需要无损压缩。

更新这是一个用 C++ 编写二进制文件并在 Matlab 中阅读它的 IDIOTS 指南，其中包含一些非常基本的解释。

将小数组写入二进制文件的 C++ 代码。

#include <iostream>
using namespace std;
int main()
{
    float writefloat;
    const int rows=2;
    const int cols=3;
    float JPDF[rows][cols];
    JPDF[0][0]=.19493;
    JPDF[0][1]=.111593;
    JPDF[0][2]=.78135;
    JPDF[1][0]=.33333;
    JPDF[1][1]=.151535;
    JPDF[1][2]=.591355;

JPDF 是一个 float 类型的数组，我将 6 个值保存到其中。这是一个 2x3 数组。

    FILE * out_file;
    out_file = fopen ( "test.bin" , "wb" );

老实说，我不太明白第一行在做什么。它似乎在制作一个名为 out_file 的 FILE 类型的指针。第二行 fopen 表示创建一个新文件用于写入(第二个参数的 'w')，并使其成为二进制文件(wb 的 'b')。

    fwrite(&rows,sizeof(int),1,out_file);
    fwrite(&cols,sizeof(int),1,out_file);

这里我对数组的大小进行了编码(# 行，# 列)。请注意，我们 fwrite 对变量 rows 和 cols 的引用，而不是变量本身(& 由 ref)。第二个参数告诉它要写入多少字节。由于行和列都是整数，所以我使用 sizeof(int)。 '1' 表示执行此操作 1 次。我认为。 out_file 是指向我们正在写入的文件的指针。

    for (int i=0; i<3; i++)
    {
        for (int j=0; j<2; j++)
        {
            writefloat=JPDF[j][i];
            fwrite (&writefloat , sizeof(float), 1, out_file);
        }
    }
    fclose (out_file);

return 0;
}

现在我将遍历我的数组并将每个值以字节为单位写入我的文件。索引有点向后看，因为我正在迭代每一列而不是在内循环中的一列。我们马上就会明白为什么。同样，我正在编写对 writefloat 的引用，它在每次迭代中采用当前数组元素的值。由于每个数组元素都是 float ，因此我在这里使用 sizeof(float) 而不是 sizeof(int)。

为了令人难以置信地清楚起见，下面是我如何看待我们刚刚创建的文件的图表。

[4 bytes: rows][4 bytes: cols][4 bytes: JPDF[0][0]][4 bytes: JPDF[1][0]] ...
[4 bytes: JPDF[1][2]]

..其中每个字节 block 都以二进制(0 和 1)写入。

在 MATLAB 中解释:

FID=fopen('test.bin');
sizes=fread(FID,2,'int')

FID 在这里有点像指针。 secret 地，它可能是一个指针。然后我们使用 fread，它的操作与 C++ fread 非常相似。 FID 是我们文件的“指针”。 'int' 告诉函数每个 block 包含多少字节。所以 sizes=fread(FID,2,'int') 表示“以二进制形式打开 FID，读取 2 个大小为 INT 字节的 block ，并以向量形式返回 2 个元素。现在，sizes(1)=rows，sizes(2)=cols。

s=fread(FID,[sizes(1) sizes(2)],'float')

下一部分最初对我来说并不完全清楚，我想我必须告诉 fread 跳过我的二进制文件中包含行/列信息的“ header ”。然而，它 secret 地维护着一个指向你离开的地方的指针。所以现在我清空二进制文件的其余部分，因为我知道数组的维度。请注意，虽然第二个参数 [M,N] 是 [rows,cols]，但 fread 是按“列顺序”读取的，这就是我们按列顺序写入数组数据的原因。

一个 * 是，如果 C++ 程序的体系结构与 matlab 一致(例如，两者都是 64 位，或者都是 32 位)，我认为我只能使用 matlab 代码“int”和“float” .但我不确定这一点。

输出是:

sizes =

     2
     3

s =

         0.194930002093315         0.111593000590801         0.781350016593933
         0.333330005407333         0.151535004377365          0.59135502576828

最佳答案

为了比每个数字四个字节做得更好，您需要确定您需要这些数字的精度。由于它们是概率，所以它们都在 [0,1] 中。您应该能够将精度指定为 2 的幂，例如您需要知道每个概率在实际值的 2^-n 范围内。然后，您只需将每个概率乘以 2ⁿ，四舍五入到最接近的整数，然后仅存储该整数中的 n 位。

在最坏的情况下，我可以看到您永远不会为每个概率显示超过六位数。因此，您可以将它们编码为 20 位，假设小数点后的精度固定不变。将每个概率乘以 2²⁰ (1048576)，四舍五入，然后将 20 位写入文件。每个概率将占用 2.5 个字节。这小于浮点值的四个字节。

无论哪种方式都比示例文件中每个值的平均 11.3 字节小得多。

如果您可以利用数据中的已知模式，您可以获得更好的压缩效果。假设有任何。我看到在您的示例中，每行的值在每一步都下降了某个因素。如果这是真实的，而不仅仅是示例生成的产物，那么您可以连续为每个样本使用更少的位。此外，如果第一个样本确实总是小于 1/8，那么您可以删除该样本的前三位，因为这些位始终为零。如果第二列总是小于 1/32，您可以删除所有这些的前五位。等等。假设示例中的幅度是所有数据集中的最大值(显然不是真的，但只是将其用作说明性案例)，并假设小数点后需要六位小数，我可以对每行六个值进行编码50 位，平均每个概率略高于一个字节。

对于最后一点压缩，由于值相加，您不必存储最后一个值。

关于matlab - matlab 可解释的 C++ 中的简单压缩算法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12358434/

24

4

0

文章推荐： objective-c - 启用 ARC 的模糊内存错误

文章推荐： macos - 使用 AppleScript 关闭 FireFox 中的特定选项卡

文章推荐： c# - 下拉菜单中的值(已删除)

java - JFrame 中的 JPanel 中的 JScrollPane 中的 JTextPane
我想做的是让 JTextPane 在 JPanel 中占用尽可能多的空间。对于我使用的 UpdateInfoPanel: public class UpdateInfoPanel extends JP
java - JFrame 中的 JPanel 中的 JTextArea 中的 JScrollPane 出现问题
我在 JPanel 中有一个 JTextArea，我想将其与 JScrollPane 一起使用。我正在使用 GridBagLayout。当我运行它时，框架似乎为 JScrollPane 腾出了空间，但
ios - iOs Xcode 中的 UIViewController 中的 UIView 中的 UITableView
我想在 xcode 中实现以下功能。我有一个 View Controller 。在这个 UIViewController 中，我有一个 UITabBar。它们下面是一个 UIView。将 UITab
sql - 与 SQL 中的 STUFF 等效的函数(MySQL 中的 GROUP_CONCAT/Oracle 中的 LISTAGG)
有谁知道Firebird 2.5有没有类似于SQL中“STUFF”函数的功能？我有一个包含父用户记录的表，另一个表包含与父相关的子用户记录。我希望能够提取用户拥有的“ROLES”的逗号分隔字符串，而
Mirth 中的 Json 解析或 Mirth 中的 Json 或 Mirth 中的 HL7 到 JSON
我想使用 JSON 作为 mirth channel 的输入和输出，例如详细信息保存在数据库中或创建 HL7 消息。简而言之，输入为 JSON 解析它并输出为任何格式。最佳答案 var objec
python - 如果文件 1 中的 A 列 = 文件 2 中的 A 列，则替换为文件 2 中的 B 列
通常我会使用 R 并执行 merge.by，但这个文件似乎太大了，部门中的任何一台计算机都无法处理它! (任何从事遗传学工作的人的附加信息)本质上，插补似乎删除了 snp ID 的 rs 数字，我只剩
Javascript 中的 HAML 中的 Javascript
我有一个以前可能被问过的问题，但我很难找到正确的描述。我希望有人能帮助我。在下面的代码中，我设置了varprice，我想添加javascript变量accu_id以通过rails在我的数据库中查找记
HTML 中的 SVG 中的 HTML
我有一个简单的 SVG 文件，在 Firefox 中可以正常查看 - 它的一些包装文本使用 foreignObject 包含一些 HTML - 文本包装在 div 中:
ruby - Ruby 中的 If block 中的 "Or"
所以我正在为学校编写一个 Ruby 程序，如果某个值是 1 或 3，则将 bool 值更改为 true，如果是 0 或 2，则更改为 false。由于我有 Java 背景，所以我认为这段代码应该有效:
amazon-web-services - 如何从账户 A 中的 Lambda(VPC 中的 Lambda)调用账户 B(VPC 中的此 Lambda)中的 AWS Lambda 函数
我做了什么: 我在这些账户之间创建了 VPC 对等连接互联网网关也连接到每个 VPC 还配置了路由表(以允许来自双方的流量) 情况1: 当这两个 VPC 在同一个账户中时，我成功测试了从另一个 La
php - 如何获取 column1 中的 value1 和 column2 中的 value2 但 column1 中的 value2 在 column2 中没有 value1 的行？
我有一个名为 contacts 的表: user_id contact_id 10294 10295 10294 10293 10293 10294 102
php - Magento 中的 foreach 中的 getChildHtml
我正在使用 Magento 中的新模板。为避免重复代码，我想为每个产品预览使用相同的子模板。特别是我做了这样一个展示: $products = Mage::getModel('catalog/pro
protocols - Elixir 中的 "for"中的 "defimpl"实际上检查了什么？
“for”是否总是检查协议(protocol)中定义的每个函数中第一个参数的类型？编辑(改写): 当协议(protocol)方法只有一个参数时，根据该单个参数的类型(直接或任意)找到实现。当协议(p
javascript - PHP 中的 JavaScript 中的 PHP
我想从我的 PHP 代码中调用 JavaScript 函数。我通过使用以下方法实现了这一点: echo ' drawChart($id); '; 这工作正常，但我想从我的 PHP 代码中获取数据，我使
javascript - html 中的 html 中的 JavaScript
这个问题已经有答案了: Event binding on dynamically created elements? (23 个回答) 已关闭 5 年前。我有一个动态表单，我想在其中附加一些其他 h
javascript - componentDidMount() 中的 .map 中的 setState
我正在尝试找到一种解决方案，以在 componentDidMount 中的映射项上使用 setState。我正在使用 GraphQL连同 Gatsby返回许多 data 项目，但要求在特定的 pat
android - ScrollView 中的 View 中的 OnTouchListener
我在 ScrollView 中有一个 View 。只要用户按住该 View ，我想每 80 毫秒调用一次方法。这是我已经实现的: final Runnable vibrate = new Runnab
android - GetStringUTFChars 中的 dvmDecodeIndirectRef 中的 dvmAbort
我用 jni 开发了一个 android 应用程序。我在 GetStringUTFChars 的 dvmDecodeIndirectRef 中得到了一个 dvmabort。我只中止了一次。为什么会这
android - Activity 中的 FragmentPagerAdapter 中的 RecyclerView
当我到达我的 Activity 时，我调用 FragmentPagerAdapter 来处理我的不同选项卡。在我的一个选项卡中，我想显示一个 RecyclerView，但他从未出现过，有了断点，我看到
android - Activity 中的 DialogFragment 中的 RecyclerView
当我按下 Activity 中的按钮时，会弹出一个 DialogFragment。在对话框 fragment 中，有一个看起来像普通 ListView 的 RecyclerView。我想要的行为是当

首页

博学

6Ren·AI

商城

matlab - matlab 可解释的 C++ 中的简单压缩算法