- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我使用 selenium 进行网页抓取,但它太慢了,所以我尝试使用实例来加快速度。
我想要完成的是:
1) 创建实例_1
2)创建instance_2
3) 首先打开一个页面
什么都不做
4) 首先打开一个页面
保存第一个实例的内容
5) 首先打开一个新页面
保存第二个实例的内容
这个想法是利用加载第一个页面的时间来打开第二个页面。
links = ('https:my_page'+ '&LIC=' + code.split('_')[1] for code in data)
browser = webdriver.Firefox()
browser_2 = webdriver.Firefox()
first_link = links.next()
browser.get(first_link)
time.sleep(0.5)
for i,link in enumerate(links):
if i % 2: # i starts at 0
browser_2.get(link)
time.sleep(0.5)
try:
content = browser.page_source
name = re.findall(re.findall('&LIC=(.+)&SAW',link)[0]
with open(output_path + name,'w') as output:
output.write((content_2))
print 'error ' + str(i)
else:
browser.get(link)
time.sleep(0.5)
try:
content_2 = browser_2.page_source
name = re.findall(re.findall('&LIC=(.+)&SAW',link)[0]
with open(output_path + name,'w') as output:
output.write((content ))
except:
print 'error ' + str(i)
但是脚本会等待第一个页面完全充电后再打开下一个页面,而且这种方法仅限于同时打开页面
编辑。
我对 GIRISH RAMNANI 的代码进行了以下更改
driver_1 = webdriver.Firefox()
driver_2 = webdriver.Firefox()
driver_3 = webdriver.Firefox()
drivers_instance = [driver_1,driver_2,driver_3]
def get_content(url,driver):
driver.get(url)
tag = driver.find_element_by_tag_name("a")
# do your work here and return the result
return tag.get_attribute("href")
with ThreadPoolExecutor(max_workers=2) as ex:
zip_list = zip(links, cycle(drivers_instance)) if len(links) > len(drivers_instance) else zip(cycle(links), drivers_instance)
for par in zip_list:
futures.append(ex.submit(get_content,par[0],par[1]))
最佳答案
可以在此处使用concurrent.futures
。
from selenium import webdriver
from concurrent.futures import ThreadPoolExecutor
URL ="https://pypi.python.org/pypi/{}"
li =["pywp/1.3","augploy/0.3.5"]
def get_content(url):
driver = webdriver.Firefox()
driver.get(url)
tag = driver.find_element_by_tag_name("a")
# do your work here and return the result
return tag.get_attribute("href")
li = list(map(lambda link: URL.format(link), li ))
futures = []
with ThreadPoolExecutor(max_workers=2) as ex:
for link in li:
futures.append(ex.submit(get_content,link))
for future in futures:
print(future.result())
请记住,将启动两个 Firefox 实例。
注意:您可能想使用 headless 浏览器,例如 PhantomJs
而不是 firefox。
关于python - 如何使用selenium的多个实例[python],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36050256/
有没有一种方法可以使用标准类型构造函数(例如 int、set、dict、list、tuple 等)以用户定义的方式将用户定义类的实例强制转换为其中一种类型?例如 class Example:
我知道这个问题在Stackoverflow中有很多问题,但是即使有很多答案,这些答案也帮不了我什么,也没有找到答案。 在我的WebAPP中,它可以正常工作,但是当我将其转换为API时,它失败了(主题标
这个问题已经有答案了: Why does the ternary operator unexpectedly cast integers? (3 个回答) 已关闭 9 年前。 最近遇到一个Java的陷
我尝试使用 FirebaseApp.configure() 配置 Firebase,但遇到以下崩溃: *** Terminating app due to uncaught exception 'c
我有一个自连接员工实体类,其中包含与其自身相关的 id、name 和 ref 列。我想创建它的新实例并将其保存到数据库。 首先我创建了一个 Employee 类的实例并将其命名为 manager。然后
我有一个用于添加新公寓的表单,在该表单中我有一个下拉列表,用户可以在其中选择负责的人员。 显然,当您从下拉列表中选择并尝试保存公寓时,我的应用程序认为该人已被修改。它给了我下面的错误,指示我应该首先保
从 Visualforce 页面,我需要检索我们组织的 salesforce 实例的 URL,而不是 Visual Force URL。 例如我需要https://cs1.salesforce.com
我遇到了一些可能的问题答案,但这是关于从 Hibernate 3.4.0GA 升级到 Hibernate 4.1.8 的问题。所以这曾经在以前的版本下工作,我已经四处搜索了为什么它在这个新版本中出现了
似乎一遍又一遍地问这个问题,我仍然找不到解决我问题的答案。我在下面有一个域模型。每个新创建或更新的“安全用户”都需要我确保其具有配置文件,如果没有,则创建一个新的配置文件并分配给它。 配置文件的要求相
我很难调试为什么 JPA 不级联我的 @ManyToMany 关系。我发现的所有答案都与缺少级联语句有关。但我确实拥有它们并且仍然得到: Caused by: org.hibernate.Transi
Play 服务 API 表明有一个叫做 Instance ID 的东西 但是,在 Android Studio 中包含以下内容后,我无法导入 InstanceID 类 compile "com.goo
我正在使用 Seam 框架。我有 2 个实体: 请求.java @Entity @Table(name = "SRV_REQUEST") public class Request { private
This question处理构建一个适当的Monad来自单子(monad)的实例,但仅在某些约束下 - 例如Set .诀窍是将其包装成 ContT ,它将约束推迟到包装/展开其值。 现在我想对 Ap
我正在尝试执行此查询: StringBuffer sb = new StringBuffer(); sb.append("select p from PointsEntity p " + "where
我试图了解是否可以更改我的 hibernate 配置并使用单个 MySQL 实例(而不是我当前拥有的多个 MySQL 实例): 我有一个使用 hibernate 的 Java 应用程序,与 2 个模式
我有一个选项卡滑动布局,其中包括四个选项卡,每个选项卡都有自己的布局和 fragment ,在我的主要 Activity 布局中,viewpager 参与更改选项卡。特定 View (选项卡)在应用程
我看到很多帖子声称他们正在运行 MySql 的 RDS 实例,但无法连接到该实例,但我没有运行 RDS。 我使用 EC2 实例来托管我的 WordPress 博客,该博客是使用 Web 平台安装程序安
因为我在我的 ec-2 实例上的 python 虚拟环境中运行应用程序( Airflow ),并且我想在同一个 ec2 实例上的默认 python 环境中运行命令,所以我认为 ssh 到我自己的实例更
这个问题已经有答案了: How to fix the Hibernate "object references an unsaved transient instance - save the tra
例子: run APP1 .. ... run APP1 ... run APP2 如何在 APP2 中对 Vue 说我需要调用 APP1?
我是一名优秀的程序员,十分优秀!