gpt4 book ai didi

python - 非英文文本python不可读

转载 作者:可可西里 更新时间:2023-11-01 16:52:15 27 4
gpt4 key购买 nike

我正在编写一个爬虫程序并获取非英语网站的标题。当我在我的控制台中打印标题时变得像这样:

শà§à¦°à§à¦²à¦à§à¦à¦¾à¦° ভালৠসà§à¦à¦¨à¦¾
ফà¦à¦¿à¦°à¦¾à¦ªà§à¦²à§ হাতবà§à¦®à¦¾ বিসà§à¦«à§à¦°à¦£, à¦à¦à¦ ১৬
দà§à¦ বাà¦à¦²à¦¾à¦¦à§à¦¶à¦¿à¦à§ নিà§à§ à¦à§à¦à§ বিà¦à¦¸à¦à¦«
à¦à¦¾à¦®à¦¾à§à¦¾à¦¤ নà§à¦¤à¦¾ সà§à¦²à¦¿à¦®à¦¸à¦¹ দà§à¦à¦¨ à¦à§à¦°à§à¦ªà§à¦¤à¦¾à¦°

我不知道如何从上述字符串中获取正确的文本。

有什么想法吗?

提前致谢。

最佳答案

这看起来像 UTF-8 编码的孟加拉文本,其中散布着 HTML 字符引用,被错误地解释为 windows-1252 字符。也可以是关于其他任何事情,真的。

在抓取网页时,您应该大致执行浏览器和一般搜索引擎在决定字符编码时所做的事情。这绝非微不足道。在 HTML5 RC 中,第 8.2.2.1 节 Determining the character encoding是对描述过程的尝试。

关于python - 非英文文本python不可读,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15289584/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com