gpt4 book ai didi

linux - 读取带有 unicode 字符的文本文件 - Python3

转载 作者:太空宇宙 更新时间:2023-11-04 04:54:54 25 4
gpt4 key购买 nike

我正在尝试读取一个文本文件,其中包含 unicode 字符 (u) 和其他标签 (\n、\u),下面是一个示例:

(u'B9781437714227000962', u'Definition\u2014Human papillomavirus (HPV)\u2013related proliferation of the vaginal mucosa that leads to extensive, full-thickness loss of maturation of the vaginal epithelium.\n')

如何在Linux操作系统中使用python3删除这些unicode标签?

最佳答案

在 python3 中删除 unicode 转义序列(或者更好:翻译它们):

a.encode('utf-8').decode('unicode_escape')

解码部分会将 unicode 转义序列转换为相关的 unicode 字符。不幸的是,这种(非)转义对字符串不起作用,因此您需要先对字符串进行编码,然后再对其进行解码。

但是正如问题评论中所指出的,您有一个序列化文档。尝试使用正确的工具对其进行反序列化,您将自动获得 unicode“取消转义”部分。

关于linux - 读取带有 unicode 字符的文本文件 - Python3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49677239/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com