gpt4 book ai didi

python - encode_contents vs encode ("utf-8") 在 Python BeautifulSoup

转载 作者:太空狗 更新时间:2023-10-30 02:29:52 27 4
gpt4 key购买 nike

好吧,作为一个网络爬虫初学者,我感觉好像我已经看到两者都被使用过,在转换 HTML 中文本的默认 unicode 时似乎可以互换。我知道 contents() 是一个列表对象,但除此之外,到底有什么区别?

我注意到 .encode("utf-8") 似乎更通用。

谢谢,

-糊涂汤。

最佳答案

encode_contents 的文档:

encode_contents(self, indent_level=None, encoding='utf-8', formatter='minimal') method of bs4.BeautifulSoup instance
Renders the contents of this tag as a bytestring.

encode方法的文档:

encode(self, encoding='utf-8', indent_level=None, formatter='minimal', errors='xmlcharrefreplace')

encode 方法适用于 bs4.BeautifulSoup 对象实例。 encode_contents 将处理 bs4.BeautifulSoup 实例的内容。

>>> html = "<div>div content <p> a paragraph </p></div>"
>>> soup = BeautifulSoup(html)
>>> soup.div.encode()
>>> '<div>div content <p> a paragraph </p></div>'
>>> soup.div.contents
>>> [u'div content ', <p> a paragraph </p>]
>>> soup.div.encode_contents()
>>> 'div content <p> a paragraph </p>'

关于python - encode_contents vs encode ("utf-8") 在 Python BeautifulSoup,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30365370/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com