- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在使用 Beautifulsoup (bs4) 来废弃 HTML 页面。它有列表 <ul>
其中有 <li>
包含一些有趣的链接 (href)。
片段:
<ul>
<!-- C 1-3 --></p>
<li>
<a href="http://LINK1" target="_blank">Link1 description</a>
</li>
</ul>
<ul>
<!-- E 1-2-3-6 --></p>
<li>
<a href="LINK-2" target="_blank">Link-2 description</a>
</li>
<p><!-- E 4-5 -7-8-9-10-11 --></p>
</ul>
问题:当我使用 find_all()
时提取所有 <ul>
- 由于格式错误的结尾,我没有得到它 </p>
缺少开口 <p>
.浏览器忽略这一点并呈现正常,但 BS4 搞乱了解析。如果存在,是否有人试图忽略 BS4 中任何格式错误的标签?
entries = soup.find_all(lambda x: x.name == 'ul')
print(len(entries))
print(entries[0])
1
<ul>
<!-- C 1-3 --></ul>
最佳答案
我认为您应该为 HTML 尝试更宽松的解析器。例如:
soup = BeautifulSoup(pg, "html5lib")
对于 html5lib 解析器是最宽松的解析器。优点是:
缺点是:
文档对不同解析器的优缺点做了一些解释:https://beautiful-soup-4.readthedocs.org/en/latest/#installing-a-parser
关于python - BeautifulSoup (bs4) : How to ignore ending tag in malformed HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36538789/
我想递归解压缩一些存档 .zip。我使用 java.util.zip,但无法使用其他库。 我的代码: public static void unzip(String file) { try {
我手头的任务是能够根据地址中的文本文件处理行,并将它们分类到各自的类别中,“东”、“西”、“百老汇”、“大道”和“坏 ID” 。下面的代码可以 100% 正确地执行此操作,直到遇到包含双逗号的格式错误
这个网址 'http://profile.myspace.com/index.cfm?fuseaction=user.viewProfile&friendID=39726387 ' 在浏览器中工作得很
我不确定它发生在哪一点,但我最终得到了一个像这样的向量: vec #Levels: first second 您应该调查为什么存在格式错误的因素并修复它。 关于r - 如何修复 'malforme
我收到此错误 'Page' ionViewWillEnter error: URI malformed 这会阻止我的应用程序运行。我不知道发生了什么事。这是我的 ionic 信息和有关错误的屏幕截图。
我正在尝试构建启用了调试符号 (-g) 的 C++ 软件。问题是额外的调试符号使包含的库太大以至于最终链接步骤失败 ../../lib/libutil.a:无法读取符号:格式错误的存档 (至少我认为它
JavaScript的最佳实践是使用一些惯用法来检测错误,而不是依赖try-catch。轻松实现TypeError: if (typeof foo !== "number") { console.
我是 dart 新手,我正在尝试使用隔离来运行多个算法以更有效地多次运行它们,但是,当使用 Isolate.spawn 调用多个函数时,我开始在控制台中收到“格式错误的消息”,它仍然有效,但我想知道为
感谢 this question 的精彩回复我了解如何使用可变参数调用 javascript 函数。 现在我希望使用与构造函数一起应用 我发现了一些有趣的信息on this post . 但是我的代码
我正在使用 Postman 查询图形 API 以获取我的 AAD 实例上的应用程序列表。 验证网址:https://login.microsoftonline.com/common/oauth2/au
我寻求有关以下问题的帮助:在从“Oracle Database 12c 版本 12.1.0.1.0 - 64 位生产”中选择数据时,观察到大量“格式错误的数据包:TNS”(使用wireshark 版本
我正在使用 Postman 查询图形 API 以获取我的 AAD 实例上的应用程序列表。 验证网址:https://login.microsoftonline.com/common/oauth2/au
我有一个 Android 应用程序,它在后台执行一些网络处理,从 https://ipinfo.io/json 处的 json api 请求信息。 。 bufferReader httpConnect
尝试将对象发布到索引时,我收到以下响应: { "message": "lexical error: malformed number, a digit is required after the
我想在我的服务器上上传几组视频,然后在 HTML5 视频标签中播放它们。但是其中一些没有播放。 我检查了视频的音频流和视频流,它们分别有AAC 和H264 编解码器。所以我觉得没有问题。 然后我尝试重
我正在尝试按照 here 中的描述做一个嵌套的中继器但它出错了。 我的中继器如下: ">
QueryText = string.Format("SELECT {0}, {1} Path FROM Scope() " + "WH
由于 unescape 已被弃用,我选择了 decodeURIComponent ,但它没有按预期工作。 decodeURIComponent 无法解码以下 URI 组件 Coast%20Guard%
我正在创建一个必须连接到 Activity 目录的应用程序。 我实际上在处理更新组成员时遇到了问题。 组名是:GG-Collaboration-AgenceXXX 这是我抛出异常的 GroupRepo
我正在尝试使用 Joda 库的 DateTimeFormatter 从字符串中解析 DateTime 对象。由于某种原因,它在到达要解析的时区时抛出异常。 这是我的代码: protected
我是一名优秀的程序员,十分优秀!