gpt4 book ai didi

python - 如何查看爬取的unicode阿拉伯字符串?

转载 作者:行者123 更新时间:2023-12-01 06:11:12 25 4
gpt4 key购买 nike

我使用Python爬取了一些网页。我撕掉了 html 标签,只将这些页面的一些内容存储为 repr(s)。这些页面大部分都不是英文的。现在如何以原始语言查看抓取的内容?

例如,爬虫仅将一行阿拉伯文本写入 txt 文件:你'\u0639\u0644\u0649'

但是当我在文本编辑器或浏览器中打开txt文件时,它看起来与上面一模一样,所以它基本上不是人类可读的..

是否有一些简单的方法可以用阿拉伯语呈现和显示字符串?

谢谢

最佳答案

>>> x= u'\u0639\u0644\u0649'
>>> open('x.html','w').write(x.encode('ascii','xmlcharrefreplace'))

在浏览器中打开x.html,它应该正确显示。实际内容:

على

关于python - 如何查看爬取的unicode阿拉伯字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5814324/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com