gpt4 book ai didi

实际有效的Python html解析

转载 作者:技术小花猫 更新时间:2023-10-29 12:17:16 25 4
gpt4 key购买 nike

我正在尝试用 Python 解析一些 html。有一些方法以前确实有效……但现在没有变通办法我就什么都不能用了。

  • Beautifulsoup 在 SGMLParser 消失后出现问题
  • html5lib 无法解析“外面”的一半内容
  • lxml 试图对典型的 html “过于正确”(属性和标签不能包含未知的命名空间,否则会抛出异常,这意味着几乎无法解析带有 Facebook 连接的页面)

现在还有哪些其他选择? (如果他们支持 xpath,那就太好了)

最佳答案

当你使用 lxml 解析 HTML 时,确保你使用了 html 模块:

>>> from lxml import html
>>> doc = """<html>
... <head>
... <title> Meh
... </head>
... <body>
... Look at this interesting use of <p>
... rather than using <br /> tags as line breaks <p>
... </body>"""
>>> html.document_fromstring(doc)
<Element html at ...>

所有的错误和异常都会消失,你会得到一个速度惊人的解析器,它通常比 BeautifulSoup 更好地处理 HTML soup。

关于实际有效的Python html解析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4114722/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com