gpt4 book ai didi

python - BeautifulSoup - 我应该如何获取正文内容

转载 作者:太空狗 更新时间:2023-10-29 18:20:26 25 4
gpt4 key购买 nike

我正在使用 BeautifulSoup 解析 HTML。最后,我想获取 body 内容,但没有 body 标签。但是 BeautifulSoup 添加了 htmlheadbody 标签。我 this googlegrops discussion提出了一种可能的解决方案:

>>> from bs4 import BeautifulSoup as Soup
>>> soup = Soup('<p>Some paragraph</p>')
>>> soup.body.hidden = True
>>> soup.body.prettify()
u' <p>\n Some paragraph\n </p>'

这个解决方案是一个 hack。应该有更好、更明显的方法来做到这一点。

最佳答案

你的意思是把所有东西都放在 body 标签之间吗?

在这种情况下,您可以使用:

import urllib2
from bs4 import BeautifulSoup
page = urllib2.urlopen('some_site').read()
soup = BeautifulSoup(page)
body = soup.find('body')
the_contents_of_body_without_body_tags = body.findChildren(recursive=False)

关于python - BeautifulSoup - 我应该如何获取正文内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21452823/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com