gpt4 book ai didi

python - BeautifulSoup bold 标签失败

转载 作者:太空宇宙 更新时间:2023-11-04 10:54:03 25 4
gpt4 key购买 nike

我有一个 html 包含:

<b>
<p align="left">TXT1</p>
</b>
<p align="left">
<b>NR1</b>
<b>TXT2</b>
TXT3
<b>TXT4</b>
TXT5
</p>

当我这样做时:

from BeautifulSoup import BeautifulSoup
html = urllib.urlopen('url')
htmlr = html.read()
soup = BeautifulSoup(htmlr)

print soup

我得到了不同的东西:

<p align="left">TXT1</p>
<p align="left">NR1 <b>TXT2</b> TXT3 <b>TXT4</b>
TXT5</p>

我正在分析 html 文档布局,因此丢失标签非常令人沮丧。它为什么会发生以及阻止它的最佳方法是什么?非常感谢!

编辑:出于信息提取的目的,我需要处理格式错误的 html 文档。如果他们的创建者希望将某些文本呈现为粗体,我必须考虑到这一点,即使该人创建了无效的 html。

最佳答案

HTML 无效。你不能有 <p><b> 里面. BeautifulSoup 正在尝试执行错误恢复(浏览器也是如此)。

阻止它的最好方法是 fix the HTML .

关于python - BeautifulSoup <b>bold</b> 标签失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11363885/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com