gpt4 book ai didi

web-scraping - 服务器端的屏幕抓取

转载 作者:行者123 更新时间:2023-12-04 02:52:29 24 4
gpt4 key购买 nike

我是屏幕抓取的新手。当我使用代理服务器并跟踪 HTTP 事务时,我得到了我的发布数据。所以我的疑问/问题是, 1)它会存储在服务器端还是只显示给客户端? 2)我们是否可以选择在屏幕抓取中加密发布数据? 3)银行应用程序使用屏幕抓取是否可取?我正在使用从中下载的屏幕抓取工具 http://www.screen-scraper.com/download/choose_version.php . (企业版)

提前致谢。

最佳答案

我在数据抓取方面的经验是,如果您没有做任何 super 复杂的事情(例如登录在线银行网站等安全网站等),那么 Python 有一些很棒的库可以为您提供很多帮助。

回答您的问题:

1) 您可能需要更清楚,但这实际上取决于您的服务器/客户端架构。

2) 事实上,你知道。 Urllib 和 Urllib2(内置 Python 库)都具有使您能够在进行 POST 之前加密数据的功能。至于这种加密的安全性,对于大多数应用程序来说,这就足够了。

3) 我实际上已经在网上银行网站上进行了抓取!我不太熟悉该工具,但我建议使用与爬虫略有不同的工具。 Selenium 是一个“网络驱动程序”,它允许您模拟浏览器的使用,这意味着浏览器在后台为验证 session 所做的任何事情都会自动处理。我在尝试抓取银行网站时遇到的主要问题是丢失了重要的 session 数据。

Selenium - https://pypi.python.org/pypi/selenium

您可能会发现有用的其他库是:urllib、urllib2 和 Mechanize

希望对您有所帮助!

关于web-scraping - 服务器端的屏幕抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17399421/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com