gpt4 book ai didi

python - 使用 Python 进行网页抓取

转载 作者:太空狗 更新时间:2023-10-29 19:33:28 26 4
gpt4 key购买 nike

<分区>

我目前正在尝试抓取一个 HTML 格式相当糟糕的网站(通常缺少结束标记,不使用类或 ID,因此很难直接找到您想要的元素,等等)。到目前为止,我一直在使用 BeautifulSoup 并取得了一些成功,但每隔一段时间(尽管很少),我会遇到一个页面,其中 BeautifulSoup 创建的 HTML 树与(例如)Firefox 或 Webkit 有点不同。虽然这是可以理解的,因为 HTML 的格式会留下歧义,但如果我能够获得与 Firefox 或 Webkit 生成的相同的解析树,我将能够更轻松地解析事物。问题通常类似于站点打开 <b>。标记两次,当 BeautifulSoup 看到第二个时 <b>标记,它立即关闭第一个,而 Firefox 和 Webkit 嵌套 <b>标签。

是否有用于 Python(或什至任何其他语言(我越来越绝望))的网络抓取库可以重现由 Firefox 或 WebKit 生成的解析树(或者至少在歧义的情况下比 BeautifulSoup 更接近)。

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com