gpt4 book ai didi

python - URLs : Binary Blob, Unicode 或编码的 Unicode 字符串?

转载 作者:搜寻专家 更新时间:2023-10-30 20:07:20 25 4
gpt4 key购买 nike

我希望将 URL 存储在数据库中(在本例中为 MySQL)并在 Python 中对其进行处理。尽管数据库和编程语言可能与我的问题无关。

在我的设置中,我在查询数据库中的文本字段时收到 unicode 字符串。但是 URL 实际上是文本吗?从 unicode 编码和解码到 unicode 是应该对 URL 执行的操作吗?还是将数据库中的列设为二进制 blob 更好?

那么,你是如何处理这个问题的?

澄清:这个问题不是关于使用百分比表示法对非 ASCII 字符进行 urlencoding。这是关于 unicode 表示文本和字节字符串表示一种将此文本编码为字节序列的方法的区别。在 Python 中(3.0 之前),这种区别在于 unicode 和 str 类型。在 MySQL 中,它是 TEXT 到 BLOBS。所以这些概念似乎在编程语言和数据库之间是对应的。但是,在此方案中处理 URL 的最佳方式是什么?

最佳答案

相关答案见RFC 2396 , 部分2.1 URI 和非 ASCII 字符


URI与字符的关系一直是源混淆不属于 US-ASCII 的字符。来描述的关系,区分一个“字符”是有用的(作为一个可区分的语义实体)和一个“八位组”(一个 8 位字节)。有两种映射,一种是从 URI 字符到八位字节,另一种是从八位字节到原始字符的一秒钟:

URI字符序列->八位字节序列->原始字符序列

URI 表示为字符序列,而不是序列八位字节。那是因为 URI 可能通过以下方式“传输”不是通过计算机网络,例如,打印在纸上,阅读 radio 等


关于python - URLs : Binary Blob, Unicode 或编码的 Unicode 字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/416315/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com