- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
在网络抓取过程中,我得到了 unicode 中的字符\u260e。我的输出是“The Last Resort, ’ +977 1 4700525”。因此,应该使用 ☎ 而不是 â∼。
我怎样才能把它弄回电话标志(☎)?所以输出将是“The Last Resort, ☎ +977 1 4700525”。
克里斯
最佳答案
当您抓取一个网站时,Python 识别出一个“☎”字符并将其存储在一个字符串中。
此字符的代码点为 260e。然而,当字符被存储时,它们被存储为一个或多个字节的序列。这些字节是什么取决于所使用的编码。在您的情况下,可能使用了 UTF-8。
此字符的 UTF-8 编码为 E2 98 8E(参见 http://www.fileformat.info/info/unicode/char/260e/index.htm)。
现在你有了一个代表你角色的字节序列。你打算用它做什么?你要把它输出到某个地方。但是您想将这个字节串转换成字符,所以您必须指定一种编码。假设您指定编码 Windows-1252(请参阅 http://unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1252.TXT)。
这就是你所看到的。您需要以 UTF-8 格式写出 Python 字符串。或者,如果您正在编写 HTML,请使用 DruvPathak 关于使用 HTML 字符实体引用的建议,在这种情况下
☎
或
☎
我怀疑发生的事情是您在写出字符串时没有指定编码,而 Windows-1252 是默认编码。或者,也许您的浏览器默认设置为显示 Windows-1252。
在 HTML 中发送数据的一个有趣的事情是,您可以发送一个 UTF-8 字节流,将 HTTP 内容类型设置为 UTF-8,并在您的 HTML 文档中放置元标记,说明页面编码为UTF-8,但如果最终用户使用的浏览器允许他或她覆盖服务器发送的编码,我想,最终用户有可能会错误地看到数据。
如果您使用字符实体引用,浏览器将始终正确显示它。
不过,在任何地方都使用这些实体引用可能不方便。现在大多数人不会手动设置他们的浏览器来覆盖服务器发送的编码。
附录
假设您有一个 unicode 字符串,并且您想要生成一个包含 HTML 字符实体引用的常规(非 unicode)字符串(类型 str)。这是一个完整的示例脚本,它说明了一种直接但不一定是最 Pythonic 的方法:
def to_character_entity_reference_string(s):
return "".join(["&#" + str(ord(c)) + ";" for c in s])
print(to_character_entity_reference_string(u'काठमाण्डु'))
如果你运行这个脚本,你会得到输出
काठमाण्डु
您可以将该输出放入一个文件中并在 Web 浏览器中打开它,您将看到 काठमाण्डु
按预期显示。
您可以在此基础脚本上创建变体,以便保留代码点小于 128 的字符,而其他所有内容都成为字符实体引用。您可能还想探索 Python 的 encode
和 decode
函数。再一次,字符实体引用可防止人们手动更改浏览器设置以覆盖您的编码,这当然很好,但可能被认为是矫枉过正。可以说,弄乱这些设置的最终用户得到了他们应得的东西,因此通常可以接受将所有内容设置为仅以 UTF-8 编码的方式。不过,很高兴了解字符实体引用。
关于python - 字符\u260e,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7266842/
我想显示阿拉伯文字,但字符 المملك 显示。 例如,在 المملكة العربية السعودية 上显示单词 المملك٩ ا
我的应用程序正在 java + MSSQL 和 MySQL 上运行。下面的查询适用于 MSSQL,但不适用于 MySql。在 mysql 中,当我编写如下查询时,它给出了错误的结果 查询 select
根据 is_destructible 的定义( http://eel.is/c++draft/meta.unary.prop#lib:is_destructible ), is_destructib
我有一个数据库表,其中有一列我对波斯字母进行了分类,以便稍后使用 MySQL WHERE 选择。一切都适用于所有字母,但我在选择在数据库中存储为 (Ù†) 的字母 (?) 和存储为 (Ú†) 的 (?
我知道像这样的可选链接: someOptional?.someProperty 基本上是 someOptional.map { $0.someProperty } 但是,我发现同时做这两件事是不可能的
u-boot配置文件中的以下配置我看不懂 CONFIG_SYS_EXTRA_OPTIONS="SYS_SDRAM_SIZE=0x20000000" 好像在 u-boot 代码中设置 DRAM 大小。但
我对以下两个方法声明感到困惑: private T funWorks(T child, U parent) { // No compilation errors }
给定如下 API: class Bar { ... } class Foo extends Bar { ... } 在 Java 的 Optional 类型中,我们可以说: Optional fooO
我有一个文件,每行有两个字符: $ cat roman Ⅱ Ⅲ nut 当我用 sort -u 对这个文件进行排序时,只显示一行: $ sort -u roman Ⅱ Ⅱ是代码点U+2161,Ⅲ是代码
我正在尝试将 C 数组分配给 C++ std::array。 我该如何做到这一点,最干净的方式并且不制作不需要的拷贝等? 什么时候做 int X[8]; std::array Y = X; 我得到一个
我有以下案例类: case class [Q Length[T] 但是,我收到一条错误消息,说 需要三个参数,而我只给出了两个。我希望它像这样工作: type Area[T] = [Length[T
它是 well documented那个[T; n]可以强制到[T] .下面的代码也是well-formed : fn test(){ let _a: &[i32] = &[1, 2, 3];
我正在尝试使用 tweepy 在 Tkinter 窗口上显示我的 Twitter 时间线。这是代码 import tweepy import tkinter consumer_key = 'xxxxx
我正在使用以下包含 letter ü 的文本片段: test für fur test 代码如下: import re for m in re.finditer(r, line, re.IGNOREC
我对 USQL 很陌生,想知道如何在 select 语句中将“日期时间”转换为“日期”。另外,我如何摆脱毫秒和上午/下午?我真的很感激这方面的任何帮助。谢谢你们。 最佳答案 下面是有效的代码。注意括号
在 U-SQL 自定义代码(代码隐藏或程序集)中可以调用外部服务,例如bing搜索或 map 。 谢谢, 纳西尔 最佳答案 由于以下原因,目前不支持此功能: 想象一下,您编写了一个 UDF 或 UDO
我想 ping 出多个以太网端口。 u-boot 仅支持单个以太网端口是否存在固有限制? 最佳答案 Can u-boot support more than one ethernet port? 是的
我最近开始学习Prolog,但无法解决如何将三个列表合并的问题。 我能够合并两个列表: %element element(X,[X|_]). element(X,[_|Y]):-
我们使用 Beaglebone 黑色定制板。我编辑了一个链接器脚本文件以添加内存部分以在其中记录一些信息: . = ALIGN(4); .logging : { _log_begin
我们使用 Beaglebone 黑色定制板。我编辑了一个链接器脚本文件以添加内存部分以在其中记录一些信息: . = ALIGN(4); .logging : { _log_begin
我是一名优秀的程序员,十分优秀!