gpt4 book ai didi

python - 如果我必须为Python选择一个html抓取库,我应该选择哪一个

转载 作者:行者123 更新时间:2023-12-01 06:10:22 24 4
gpt4 key购买 nike

我需要做很多 html 解析/抓取/搜索引擎/爬行。

目前有很多库,例如 Scrapy、Beautiful Soup、lxml、lxml2 requests、pyquery。

现在我不想尝试每一个然后再决定。基本上我想遵循一个,然后详细研究,然后最常使用它。

那么我应该选择哪个库来执行上述所有功能。即使差异问题可能有不同的解决方案。但我想要一个可以做所有事情的库,尽管编码需要时间,但应该是可能的

是否可以在 lxml 中建立索引? PyQuery 与 lxml 相同还是不同?

最佳答案

我正在使用 Beautiful Soup,并且非常满意。到目前为止,它满足了我所有的抓取需求。两个主要好处:

  • 它非常擅长处理不完美的 HTML。由于浏览器相当宽松,许多 HTML 文档并不是 100% 格式良好
  • 除了高级访问 API 之外,它还具有低级 API,可以在未直接提供某些特定抓取需求的情况下进行扩展

关于python - 如果我必须为Python选择一个html抓取库,我应该选择哪一个,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6248424/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com