作者热门文章
- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
好吧,作为一个网络爬虫初学者,我感觉好像我已经看到两者都被使用过,在转换 HTML 中文本的默认 unicode 时似乎可以互换。我知道 contents() 是一个列表对象,但除此之外,到底有什么区别?
我注意到 .encode("utf-8") 似乎更通用。
谢谢,
-糊涂汤。
最佳答案
encode_contents
的文档:
encode_contents(self, indent_level=None, encoding='utf-8', formatter='minimal') method of bs4.BeautifulSoup instance
Renders the contents of this tag as a bytestring.
encode
方法的文档:
encode(self, encoding='utf-8', indent_level=None, formatter='minimal', errors='xmlcharrefreplace')
encode
方法适用于 bs4.BeautifulSoup
对象实例。 encode_contents
将处理 bs4.BeautifulSoup
实例的内容。
>>> html = "<div>div content <p> a paragraph </p></div>"
>>> soup = BeautifulSoup(html)
>>> soup.div.encode()
>>> '<div>div content <p> a paragraph </p></div>'
>>> soup.div.contents
>>> [u'div content ', <p> a paragraph </p>]
>>> soup.div.encode_contents()
>>> 'div content <p> a paragraph </p>'
关于python - encode_contents vs encode ("utf-8") 在 Python BeautifulSoup,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30365370/
好吧,作为一个网络爬虫初学者,我感觉好像我已经看到两者都被使用过,在转换 HTML 中文本的默认 unicode 时似乎可以互换。我知道 contents() 是一个列表对象,但除此之外,到底有什么区
我是一名优秀的程序员,十分优秀!