- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我正在尝试获取 21 个字节的数据来唯一标识交易并将其存储在一个 16 字节的 char
数组中。我无法为此提出正确的算法。
我要压缩的交易 ID 包含 2 个字段:
因此,包含这些数据的 C++ 类如下所示:
class ID
{
public:
char trade_num_[18];
char broker_[3];
};
这个数据需要存储在一个16-char
的数据结构中,如下所示:
class Compressed
{
public:
char sku_[16];
};
我试图利用这样一个事实,因为 trade_num_
中的字符只有 0-127,每个字符中有 1 个未使用的位。类似地,二进制的 999 是 1111100111,它只有 10 位——比 2 字节字少 6 位。但是当我计算出我能压缩多少时,我能做到的最小是 17 个字节;一个字节太大了。
有什么想法吗?
顺便说一句,trade_num_
用词不当。它可以包含字母和其他字符。规范就是这么说的。
编辑:很抱歉造成困惑。 trade_num_
字段确实是 18 个字节,而不是 16 个字节。在我发布这个帖子后,我的互联网连接中断了,直到现在我才能回到这个帖子。
EDIT2:我认为对数据集做出假设是安全的。对于 trade_num_ 字段,我们可以假设不存在不可打印的 ASCII 字符 0-31。 ASCII 码 127 或 126 (~) 也不会。所有其他可能都存在,包括大小写字母、数字和标点符号。这样一来,trade_num_
将包含 94 个字符,ASCII 码 32 到 125,包括 32 到 125。
最佳答案
如果您有 0 - 127 范围内的 18 个字符和 0 - 999 范围内的数字并尽可能压缩它,那么它将需要 17 个字节。
>>> math.log(128**18 * 1000, 256)
16.995723035582763
您也许可以利用某些字符很可能不使用这一事实。特别是不太可能有任何低于值 32 的字符,并且也可能不使用 127。如果你能找到更多未使用的字符,那么你可以先将这些字符转换为 base 94,然后将它们尽可能紧密地打包到字节中。
>>> math.log(94**18 * 1000, 256)
15.993547951857446
这个刚好适合16个字节!
示例代码
这里是一些用 Python 编写的示例代码(但以非常命令式的风格编写,以便非 Python 程序员可以轻松理解)。我假设输入中没有波浪号 (~
)。如果有,您应该在编码字符串之前用另一个字符替换它们。
def encodeChar(c):
return ord(c) - 32
def encode(s, n):
t = 0
for c in s:
t = t * 94 + encodeChar(c)
t = t * 1000 + n
r = []
for i in range(16):
r.append(int(t % 256))
t /= 256
return r
print encode(' ', 0) # smallest possible value
print encode('abcdefghijklmnopqr', 123)
print encode('}}}}}}}}}}}}}}}}}}', 999) # largest possible value
输出:
[ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[ 59, 118, 192, 166, 108, 50, 131, 135, 174, 93, 87, 215, 177, 56, 170, 172]
[255, 255, 159, 243, 182, 100, 36, 102, 214, 109, 171, 77, 211, 183, 0, 247]
此算法使用 Python 处理非常大的数字的能力。要将此代码转换为 C++,您可以使用大整数库。
你当然需要一个等效的解码函数,原理是一样的——操作是按相反的顺序进行的。
关于c++ - 将 21 个字母数字字符压缩为 16 个字节,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3419606/
在 MySQL 数据库中,我在表中有一列既有纯数字也有混合数字/字母。没有模式,如果是纯数字我想区分,标记为true,否则为false。有什么好的方法可以使用吗?我试过: ID REGEXP '^[[
这个问题在这里已经有了答案: Numbers as column names of data frames (2 个回答) Why am I getting X. in my column names
尝试提出一个正则表达式来捕获诸如 AB1234 或 BA2321 之类的组。本质上需要捕获以 AB 或 BA 开头并后跟 4 位数字的任何内容。 目前,我有类似的东西,但这似乎没有考虑数字 (AB|B
var z = []; for(var i = 1; i len) z.push("a".repeat(len-i%len)) console.log(z.join("\n")); 关于jav
我需要一个仅用于数字、字母、空格和连字符的正则表达式。 像这样的 ^[a-zA-Z0-9]+$ 得到字母和数字,但我需要一个用于上述。这些真的很难理解! 最佳答案 这是你需要的: /^[0-9A-Za
有没有人可以帮助我解决 PDFBox 中的字母问题我正在尝试打印字母“ń”(波兰语字母)并且我得到了类似 þÿ J 的东西。 Dı B R O W 2S0 :K0 3I. 请帮忙! 最佳答案 我遇到了
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
我尽量不让我的文本 block 把一个词分成几个部分并跳到下一行。对于每种设备尺寸,文本都会中断并造成可读性问题。我尝试将 marring-right 与 % 一起使用,但并没有太大帮助。 这是我的哈
这是我第一次向 Stack Overflow 发帖提问。我是编程新手,所以如果我说的奇怪或错误,请原谅。 在下面的文件中;它读取目录并将其保存到变量 nAddress 中。然后删除文件扩展名;将文件分
我希望当用户将鼠标悬停在页面上时,我的页面上的某些文本会重新排列字母。例如,将鼠标悬停在“WORK”上,它就会变成“OWKR”。我怀疑需要 js,但我对 js 还是很陌生。下面是我的 html:
我已经为此工作了几个小时,现在我有点卡住了....请帮助我。我是一个完全的编程障碍。除字母表方法外,所有方法都可以正常工作。 它将接收两个字符(大写或小写)并返回由给定 char 值范围组成的字符串。
我想编写一个程序,在输入的同一行中读取 n 个不同化学元素的名称(其中 1 ≤ n ≤ 17 和 n 也在输入中读取)(名称由空格分开)。化学元素的名称应存储在不同的字符串中以供进一步使用。 由于 n
我想隐藏一个字母,并在链接中显示另一个字母,当然,悬停字母的样式不同。例如: 这是一个... ...normal link. 这是一个... ...hovêrêd lînk. 如何实现?谢谢。 编辑:
我一直被这个相当愚蠢的想法所挑战。 所以我可以用 Blabla[span class=superI]i[/span]rest 替换所有出现的“i”:) 我的想法是在真正的 i“后面”添加一个额外的(红
本文以实例演示5种验证码,并介绍生成验证码的函数。PHP生成验证码的原理:通过GD库,生成一张带验证码的图片,并将验证码保存在Session中。 ?
下面给大家介绍下JS正则表达式 必须包含数字、字母、特殊字符 js正则表达式要求: 1. 必须包含数字、英文字母、特殊符号且大于等于8位 2. 特殊符号包括: ~!@#$%^&* 正
我在这里和网上四处寻找解决方案。 问题是我只想接受信件。但是,如果我至少输入一个字母,无论是否有符号或数字,它都会接受。如何获得仅 封信? if (!preg_match("/[a-zA-Z]/",
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 去年关闭。 Improve th
制表符分隔的文本文件,实际上是数据库表的导出(使用 bcp),具有以下形式(前 5 列): 102 1 01 e113c 3224.96 12 102 1 01 e185
我需要循环遍历数据数组并为每个数组值打印一个“递增”字母。我知道我可以做到这一点: $array = array(11, 33, 44, 98, 1, 3, 2, 9, 66, 21, 45); //
我是一名优秀的程序员,十分优秀!