gpt4 book ai didi

python - urllib2 getparam charset 对某些站点返回 None

转载 作者:行者123 更新时间:2023-11-28 17:40:06 25 4
gpt4 key购买 nike

我为此苦苦挣扎了一段时间。以下代码片段为某些网站返回 None,即使字符集出现在 header 的元数据中,因此它似乎不是获取网页正确字符集的可靠方法。

conn = urllib2.urlopen(req)
charset = conn.headers.getparam('charset')

我在这里阅读了几个关于 SO 的线程,一些提到使用 chardet 但我不想尽可能导入额外的模块。相反,我正在考虑仅下载 header 并使用一些字符串函数获取字符集信息。

有没有人有更好的主意?

最佳答案

conn.headers.getparam('charset')不解析 html 内容(<meta> 标签),它只在 http header 中查找(例如,Content-Type)。

你可以 use an html parser to get the character encoding如果未在 http header 中指定。

关于python - urllib2 getparam charset 对某些站点返回 None,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25624522/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com