gpt4 book ai didi

algorithm - 我们为什么要使用 Base64?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:11:07 29 4
gpt4 key购买 nike

Wikipedia

Base64 encoding schemes are commonly used when there is a need to encode binary data that needs be stored and transferred over media that are designed to deal with textual data. This is to ensure that the data remains intact without modification during transport.

但数据是否总是以二进制形式存储/传输,因为我们机器的内存存储二进制,这是否取决于您如何解释它?因此,无论您将位模式 010011010110000101101110 编码为 ASCII 中的 Man 还是 Base64 中的 TWFu,您最终都会存储相同的位模式.

如果最终编码是根据 0 和 1 进行的,并且每个机器和媒体都可以处理它们,那么数据表示为 ASCII 还是 Base64 有什么关系?

“旨在处理文本数据的媒体”是什么意思?他们可以处理二进制 => 他们可以处理任何东西。


谢谢大家,我想我现在明白了。

当我们发送数据时,我们无法确定数据是否会按照我们预期的格式进行解释。因此,我们发送以双方都能理解的某种格式(如 Base64)编码的数据。这样即使发送方和接收方对同一事物的解释不同,但由于他们同意编码格式,数据也不会被错误解释。

来自 Mark Byers example

如果我要发送

Hello
world!

一种方法是像这样用ASCII发送它

72 101 108 108 111 10 119 111 114 108 100 33

但是字节 10 可能不会被正确解释为另一端的换行符。所以,我们使用 ASCII 的一个子集像这样对其进行编码

83 71 86 115 98 71 56 115 67 110 100 118 99 109 120 107 73 61 61

以相同数量的信息传输更多数据为代价,确保接收方能够以预期的方式解码数据,即使接收方碰巧对字符集的其余部分有不同的解释。

最佳答案

您的第一个错误是认为 ASCII 编码和 Base64 编码可以互换。他们不是。它们用于不同的目的。

  • 当您以 ASCII 编码文本时,您从一个文本字符串开始并将其转换为一个字节序列。
  • 当您使用 Base64 对数据进行编码时,您会从一个字节序列开始并将其转换为文本字符串。

要理解为什么首先需要 Base64,我们需要了解一点计算历史。


计算机以二进制(0 和 1)进行通信,但人们通常希望使用更丰富的形式数据(例如文本或图像)进行通信。为了在计算机之间传输此数据,首先必须将其编码为 0 和 1,然后发送,然后再次解码。以文本为例——有许多不同的方式来执行这种编码。如果我们都能就一种编码达成一致,事情就会简单得多,但遗憾的是,情况并非如此。

最初创建了许多不同的编码(例如 Baudot code ),每个字符使用不同的位数,直到最终 ASCII 成为每个字符 7 位的标准。然而,大多数计算机以字节形式存储二进制数据,每个字节由 8 位组成,因此 ASCII不适合传输此类数据。有些系统甚至会删除最高有效位。此外,跨系统行尾编码的差异意味着 ASCII 字符 10 和 13 有时也会被修改。

解决这些问题Base64引入了编码。这允许您将任意字节编码为已知可以安全发送而不会损坏的字节(ASCII 字母数字字符和几个符号)。缺点是使用 Base64 编码消息会增加其长度 - 每 3 个字节的数据被编码为 4 个 ASCII 字符。

要可靠地发送文本,您可以首先使用您选择的文本编码(例如 UTF-8)编码为字节,然后之后对生成的二进制数据进行 Base64 编码转换为可以安全发送的编码为 ASCII 的文本字符串。接收方必须反转此过程才能恢复原始消息。这当然需要接收方知道使用了哪些编码,而此信息通常需要单独发送。

从历史上看,它曾用于对电子邮件中的二进制数据进行编码,其中电子邮件服务器可能会修改行尾。一个更现代的例子是对 embed image data directly in HTML source code 使用 Base64 编码.这里有必要对数据进行编码,以避免像“<”和“>”这样的字符被解释为标签。


这是一个工作示例:

我想发送一条包含两行的短信:

Helloworld!

If I send it as ASCII (or UTF-8) it will look like this:

72 101 108 108 111 10 119 111 114 108 100 33

字节 10 在某些系统中已损坏,因此我们可以将这些字节 Base 64 编码为 Base64 字符串:

SGVsbG8Kd29ybGQh

Which when encoded using ASCII looks like this:

83 71 86 115 98 71 56 75 100 50 57 121 98 71 81 104

这里的所有字节都是已知的安全字节,因此任何系统破坏此消息的可能性很小。我可以发送此消息而不是我的原始消息,并让接收方反转过程以恢复原始消息。

关于algorithm - 我们为什么要使用 Base64?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3538021/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com