python - BeautifulSoup (bs4) : How to ignore ending tag in malformed HTML-6ren

python - BeautifulSoup (bs4) : How to ignore ending tag in malformed HTML

转载作者：太空宇宙更新时间：2023-11-04 14:59:14

26

4

我正在使用 Beautifulsoup (bs4) 来废弃 HTML 页面。它有列表 <ul>其中有 <li>包含一些有趣的链接 (href)。

片段:

<ul>
 <!-- C 1-3 --></p>
 <li>
   <a href="http://LINK1" target="_blank">Link1 description</a>
 </li>
</ul>

<ul>
 <!-- E 1-2-3-6 --></p>
 <li>
  <a href="LINK-2" target="_blank">Link-2 description</a>
 </li>
 <p><!-- E 4-5 -7-8-9-10-11 --></p>
</ul>

问题:当我使用 find_all() 时提取所有 <ul> - 由于格式错误的结尾，我没有得到它 </p>缺少开口 <p> .浏览器忽略这一点并呈现正常，但 BS4 搞乱了解析。如果存在，是否有人试图忽略 BS4 中任何格式错误的标签？

entries = soup.find_all(lambda x: x.name == 'ul')
print(len(entries))
print(entries[0])

1
<ul>
 <!-- C 1-3 --></ul>

最佳答案

我认为您应该为 HTML 尝试更宽松的解析器。例如:

soup = BeautifulSoup(pg, "html5lib")

对于 html5lib 解析器是最宽松的解析器。优点是:

非常宽容
以与网络浏览器相同的方式解析页面
创建有效的 HTML5

缺点是:

很慢
外部 Python 依赖

文档对不同解析器的优缺点做了一些解释:https://beautiful-soup-4.readthedocs.org/en/latest/#installing-a-parser

关于python - BeautifulSoup (bs4) : How to ignore ending tag in malformed HTML，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36538789/

26

4

0

文章推荐： CSS如何让按钮显示图像

文章推荐： c++ - 指针问题.. ( C++ )

java//解压报错:MALFORMED
我想递归解压缩一些存档 .zip。我使用 java.util.zip，但无法使用其他库。我的代码: public static void unzip(String file) { try {
Java 不会因双逗号而崩溃 "malformed line"
我手头的任务是能够根据地址中的文本文件处理行，并将它们分类到各自的类别中，“东”、“西”、“百老汇”、“大道”和“坏 ID” 。下面的代码可以 100% 正确地执行此操作，直到遇到包含双逗号的格式错误
php - curl 'malformed url'
这个网址 'http://profile.myspace.com/index.cfm?fuseaction=user.viewProfile&friendID=39726387 ' 在浏览器中工作得很
r - 如何修复 'malformed factor'？
我不确定它发生在哪一点，但我最终得到了一个像这样的向量: vec #Levels: first second 您应该调查为什么存在格式错误的因素并修复它。关于r - 如何修复 'malforme
javascript - ionViewWillEnter错误: URI malformed
我收到此错误 'Page' ionViewWillEnter error: URI malformed 这会阻止我的应用程序运行。我不知道发生了什么事。这是我的 ionic 信息和有关错误的屏幕截图。
c++ - 链接器无法读取符号 : Malformed archive
我正在尝试构建启用了调试符号 (-g) 的 C++ 软件。问题是额外的调试符号使包含的库太大以至于最终链接步骤失败 ../../lib/libutil.a:无法读取符号:格式错误的存档 (至少我认为它
javascript - JavaScript : How to detect a malformed URI?
JavaScript的最佳实践是使用一些惯用法来检测错误，而不是依赖try-catch。轻松实现TypeError: if (typeof foo !== "number") { console.
mobile - Dart - 生成多个隔离时在控制台中获取 'Malformed message'
我是 dart 新手，我正在尝试使用隔离来运行多个算法以更有效地多次运行它们，但是，当使用 Isolate.spawn 调用多个函数时，我开始在控制台中收到“格式错误的消息”，它仍然有效，但我想知道为
javascript应用于构造函数，抛出 "malformed formal parameter"
感谢 this question 的精彩回复我了解如何使用可变参数调用 javascript 函数。现在我希望使用与构造函数一起应用我发现了一些有趣的信息on this post . 但是我的代码
Azure AD : Authentication missing or malformed
我正在使用 Postman 查询图形 API 以获取我的 AAD 实例上的应用程序列表。验证网址:https://login.microsoftonline.com/common/oauth2/au
c# - "Malformed Packet: TNS"从Oracle数据库检索数据
我寻求有关以下问题的帮助:在从“Oracle Database 12c 版本 12.1.0.1.0 - 64 位生产”中选择数据时，观察到大量“格式错误的数据包:TNS”(使用wireshark 版本
Azure AD : Authentication missing or malformed
我正在使用 Postman 查询图形 API 以获取我的 AAD 实例上的应用程序列表。验证网址:https://login.microsoftonline.com/common/oauth2/au
java - 为什么我会收到 Json Malformed Exception
我有一个 Android 应用程序，它在后台执行一些网络处理，从 https://ipinfo.io/json 处的 json api 请求信息。。 bufferReader httpConnect
algolia - 词法错误 : malformed number, 减号后需要一个数字？
尝试将对象发布到索引时，我收到以下响应: { "message": "lexical error: malformed number, a digit is required after the
FFmpeg : Check if the aac bitstream is malformed or not
我想在我的服务器上上传几组视频，然后在 HTML5 视频标签中播放它们。但是其中一些没有播放。我检查了视频的音频流和视频流，它们分别有AAC 和H264 编解码器。所以我觉得没有问题。然后我尝试重
c# - 嵌套中继器产生 "malformed server tag"？
我正在尝试按照 here 中的描述做一个嵌套的中继器但它出错了。我的中继器如下: ">
c# - 看不出这个简单的 SQL 查询是 'malformed' !
QueryText = string.Format("SELECT {0}, {1} Path FROM Scope() " + "WH
javascript - decodeURIComponent 抛出错误 'URI malformed'
由于 unescape 已被弃用，我选择了 decodeURIComponent ，但它没有按预期工作。 decodeURIComponent 无法解码以下 URI 组件 Coast%20Guard%
java - Spring Malformed 'member' 属性值
我正在创建一个必须连接到 Activity 目录的应用程序。我实际上在处理更新组成员时遇到了问题。组名是:GG-Collaboration-AgenceXXX 这是我抛出异常的 GroupRepo
java - Joda DateTimeFormatter 设置时区时抛出异常 : "is malformed at"
我正在尝试使用 Joda 库的 DateTimeFormatter 从字符串中解析 DateTime 对象。由于某种原因，它在到达要解析的时区时抛出异常。这是我的代码: protected

首页

博学

6Ren·AI

商城

python - BeautifulSoup (bs4) : How to ignore ending tag in malformed HTML