gpt4 book ai didi

python - 屏幕抓取表单结果

转载 作者:太空宇宙 更新时间:2023-11-03 13:24:54 24 4
gpt4 key购买 nike

我最近应客户要求为其保险业务建立一个网站。作为其中的一部分,他们想为他们的一个提供商做一些报价网站的屏幕抓取。他们询问他们是否有一个 API 来执行此操作,并被告知没有,但如果他们可以从他们的引擎中获取数据,他们就可以随心所欲地使用它。

我的问题:是否可以对向另一个站点提交表单的响应执行屏幕抓取?如果是这样,我应该注意哪些陷阱。撇开明显的法律/道德问题不谈,因为他们已经请求允许我们做我们计划做的事情。

顺便说一句,我更喜欢用 python 进行任何处理。

谢谢

最佳答案

一个非常好的屏幕抓取库是 mechanize ,我认为它是用 Perl 编写的原始库的克隆。无论如何,结合 ClientForm模块,以及来自 BeautifulSoup 的一些额外帮助,你应该离开。

我用 Python 编写了大量屏幕抓取代码,结果证明这些模块是最有用的。大多数的东西mechanize理论上确实可以通过简单地使用 urllib2 来完成或 httplib来自标准库的模块,但是 mechanize使这一切变得轻而易举:本质上,它为您提供了一个程序化浏览器(请注意,它不需要浏览器即可工作,但仅仅为您提供了一个行为类似于完全可定制的浏览器的 API)。

对于后处理,我使用 BeautifulSoup 取得了很大的成功,但是 lxml.html也是不错的选择。

基本上,您肯定能够在 Python 中执行此操作,并且您的结果应该非常适合现有的工具范围。

关于python - 屏幕抓取表单结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1222373/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com