gpt4 book ai didi

python - 标记转换为 HTML 实体?

转载 作者:行者123 更新时间:2023-11-28 01:28:54 24 4
gpt4 key购买 nike

我正在尝试使用 BeautifulSoup 来解析一些有问题的 HTML。一种这样的 HTML 是 http://f10.5post.com/forums/showthread.php?t=1142017

发生的事情是,首先,树遗漏了页面的一大块。其次,tostring(tree)会转换像 <div> 这样的标签在页面的一半到 HTML 实体,如 &lt;/div&gt; .例如

原文:

<div class="smallfont" align="centre">All times are GMT -4. The time now is <span class="time">02:12 PM</span>.</div>`

toString(tree)

&lt;div class="smallfont" align="center"&gt;All times are GMT -4. The time now is &lt;span class="time"&gt;02:12 PM&lt;/span&gt;.&lt;/div&gt;

这是我的代码:

from BeautifulSoup import BeautifulSoup
import urllib2

page = urllib2.urlopen("http://f10.5post.com/forums/showthread.php?t=1142017")
soup = BeautifulSoup(page)

print soup

谢谢

最佳答案

使用beautifulsoup4和一个非常宽松 html5lib parser :

import urllib2
from bs4 import BeautifulSoup # NOTE: importing beautifulsoup4 here

page = urllib2.urlopen("http://f10.5post.com/forums/showthread.php?t=1142017")
soup = BeautifulSoup(page, "html5lib")

print soup

关于python - 标记转换为 HTML 实体?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31013881/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com