gpt4 book ai didi

python - 使用 BeautifulSoup 获取标签内的所有内容

转载 作者:太空宇宙 更新时间:2023-11-03 14:52:13 30 4
gpt4 key购买 nike

我正在尝试获取文章标签中的所有内容,假设是 http://magazine.magix.com/de/5-tipps-fuer-die-fotobearbeitung/

但是,当使用

print soup.article

它只会达到“...Foto auf verschiedene Art und Weise und für verschiedene Zwecke bearbeiten。”

完整代码:

from bs4 import BeautifulSoup
import requests

request_page = requests.get('http://magazine.magix.com/de/5-tipps-fuer-die-fotobearbeitung/', 'html.parser')
source = request_page.text
soup = BeautifulSoup(source, "html.parser")
print soup.article.text

我怎样才能得到所有的东西?

最佳答案

好的,终于找到了。欢迎来到惊人的抓取世界。<​​/p>

<article>内标签,一些 </br>标签存在,这家伙肯定意味着 <br/> .

无论如何,它破坏了 html 流,所以 BS 很难解析它。

我是这样解决的:

from bs4 import BeautifulSoup
import requests

request_page = requests.get('http://magazine.magix.com/de/5-tipps-fuer-die-fotobearbeitung/', 'html.parser')
source = request_page.text
source = source.replace('</br>', '<br/>')
soup = BeautifulSoup(source, "html.parser")
print soup.article

(我将 </br> 替换为 <br/> ...)

这是一个很棒的抓取类(class),这类东西很多,指望它:)

关于python - 使用 BeautifulSoup 获取标签内的所有内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45077760/

30 4 0