gpt4 book ai didi

python - 如何加速 JavaScript 网页抓取的过程?

转载 作者:行者123 更新时间:2023-12-01 08:21:02 28 4
gpt4 key购买 nike

此 Python 函数旨在从 JavaScript 网页中抓取特定标识符(称为 PMID)。当 URL 传递给函数时,它使用 selenium 获取页面。然后代码尝试在 html 标签内查找“pubmedLink”类。如果找到,它将提取的 PMID 返回给另一个函数。

这工作正常,但速度确实很慢。有没有办法通过使用另一个解析器或完全不同的方法来加速该过程?

from selenium import webdriver


def _getPMIDfromURL_(url):

driver = webdriver.Chrome('/usr/protoLivingSystematicReviews/drivers/chromedriver')
driver.get(url)

try:
if driver.find_element_by_css_selector('a.pubmedLink').is_displayed():
json_text = driver.find_element_by_css_selector('a.pubmedLink').text
return json_text
except:
return "no_pmid"

driver.quit()

JS 网页的 URL 示例,

最佳答案

嗯,selenium 速度很快,这就是为什么它是许多测试人员的最爱。另一方面,您可以通过解析内容一次而不是两次来改进代码。

语句的返回值

 driver.find_element_by_css_selector('a.pubmedLink')

可能会存储在变量中并使用该变量。这将使您的速度提高约 1.5 倍。

try:
elem =driver.find_element_by_css_selector('a.pubmedLink')
if elem.is_displayed():
return elem.text
except:
return "no_pmid

关于python - 如何加速 JavaScript 网页抓取的过程?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54648669/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com