gpt4 book ai didi

python - 默认的内容类型/字符集是什么?

转载 作者:太空狗 更新时间:2023-10-29 14:56:54 25 4
gpt4 key购买 nike

根据这个答案: urllib2 read to Unicode

我必须获取内容类型才能更改为 Unicode。但是,有些网站没有“字符集”。

例如,this 的 ['content-type']页面是“文本/html”。我无法将其转换为 Unicode。

encoding=urlResponse.headers['content-type'].split('charset=')[-1]
htmlSource = unicode(htmlSource, encoding)
TypeError: 'int' object is not callable

是否有默认的“编码”(当然是英语)...这样如果找不到任何东西,我就可以使用那个?

最佳答案

Is there a default "encoding" (English, of course)...so that if nothing is found, I can just use that?

不,没有。你一定猜到了。

简单方法:尝试解码为 UTF-8。如果它有效,很好,它可能是 UTF-8。如果不是,请为您正在浏览的页面类型选择最可能的编码。对于 cp1252 的英文页面,Windows 西欧编码。 (这类似于 ISO-8859-1;事实上大多数浏览器将使用 cp1252 而不是 iso-8859-1 即使您指定了该字符集,所以值得复制它行为。)

如果您需要猜测其他语言,那就太麻烦了。有一些现有的模块可以帮助您在这些情况下进行猜测。见例如。 chardet .

关于python - 默认的内容类型/字符集是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1808567/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com