- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 concurrent.futures
在以下脚本中实现多处理。问题是即使当我使用 concurrent.futures
时,性能仍然是一样的。它似乎对执行过程没有任何影响,这意味着它无法提高性能。
我知道如果我创建另一个函数并将从 get_titles()
填充的链接传递给该函数以便从它们的内页中抓取标题,我可以制作这个 concurrent.futures
工作。但是,我希望使用我在下面创建的函数从登录页面获取标题。
我使用迭代方法而不是递归只是因为如果我选择后者,当调用超过 1000 次时函数将抛出递归错误。
这是我目前尝试的方式(我在脚本中使用的站点链接是一个占位符
):
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import concurrent.futures as futures
base = 'https://stackoverflow.com'
link = 'https://stackoverflow.com/questions/tagged/web-scraping'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36',
}
def get_titles(link):
while True:
res = requests.get(link,headers=headers)
soup = BeautifulSoup(res.text,"html.parser")
for item in soup.select(".summary > h3"):
post_title = item.select_one("a.question-hyperlink").get("href")
print(urljoin(base,post_title))
next_page = soup.select_one(".pager > a[rel='next']")
if not next_page: return
link = urljoin(base,next_page.get("href"))
if __name__ == '__main__':
with futures.ThreadPoolExecutor(max_workers=5) as executor:
future_to_url = {executor.submit(get_titles,url): url for url in [link]}
futures.as_completed(future_to_url)
问题:
How can I improve the performance while parsing links from landing pages?
编辑:我知道我可以按照下面的路线实现相同的目标,但这不是我最初的尝试
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import concurrent.futures as futures
base = 'https://stackoverflow.com'
links = ['https://stackoverflow.com/questions/tagged/web-scraping?tab=newest&page={}&pagesize=30'.format(i) for i in range(1,5)]
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36',
}
def get_titles(link):
res = requests.get(link,headers=headers)
soup = BeautifulSoup(res.text,"html.parser")
for item in soup.select(".summary > h3"):
post_title = item.select_one("a.question-hyperlink").get("href")
print(urljoin(base,post_title))
if __name__ == '__main__':
with futures.ThreadPoolExecutor(max_workers=5) as executor:
future_to_url = {executor.submit(get_titles,url): url for url in links}
futures.as_completed(future_to_url)
最佳答案
既然您的抓取工具正在使用线程,为什么不“产生”更多的工作程序来处理来自着陆页的后续 URL?
例如:
import concurrent.futures as futures
from urllib.parse import urljoin
import requests
from bs4 import BeautifulSoup
base = "https://stackoverflow.com"
links = [
f"{base}/questions/tagged/web-scraping?tab=newest&page={i}&pagesize=30"
for i in range(1, 5)
]
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 "
"(KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36",
}
def threader(function, target, workers=5):
with futures.ThreadPoolExecutor(max_workers=workers) as executor:
jobs = {executor.submit(function, item): item for item in target}
futures.as_completed(jobs)
def make_soup(page_url: str) -> BeautifulSoup:
return BeautifulSoup(requests.get(page_url).text, "html.parser")
def process_page(page: str):
s = make_soup(page).find("div", class_="grid--cell ws-nowrap mb8")
views = s.getText() if s is not None else "Missing data"
print(f"{page}\n{' '.join(views.split())}")
def make_pages(soup_of_pages: BeautifulSoup) -> list:
return [
urljoin(base, item.select_one("a.question-hyperlink").get("href"))
for item in soup_of_pages.select(".summary > h3")
]
def crawler(link):
while True:
soup = make_soup(link)
threader(process_page, make_pages(soup), workers=10)
next_page = soup.select_one(".pager > a[rel='next']")
if not next_page:
return
link = urljoin(base, next_page.get("href"))
if __name__ == '__main__':
threader(crawler, links)
示例运行输出:
https://stackoverflow.com/questions/66463025/exporting-several-scraped-tables-into-a-single-csv-file
Viewed 19 times
https://stackoverflow.com/questions/66464511/can-you-find-the-parent-of-the-soup-in-beautifulsoup
Viewed 32 times
https://stackoverflow.com/questions/66464583/r-subscript-out-of-bounds-for-reading-an-html-link
Viewed 22 times
and more ...
理由:
从本质上讲,您在最初的方法中所做的是催生工作人员从搜索页面中获取问题 URL。您不处理以下 URL。
我的建议是派生额外的工作人员来处理爬行工作人员收集的内容。
在你的问题中你提到:
I wish to get the titles from landing pages
这就是您的初始方法的调整版本试图通过利用 threader()
来完成的。函数,它基本上是 ThreadPool()
的包装器.
关于python - 解析登陆页面的链接时无法提高性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66488593/
我正在比较工作簿中的工作表。该工作簿有两张名为 PRE 和 POST 的工作表,每张工作表都有相同的 19 列。行数每天都不同,但特定一天的两张表的行数相同。该宏将 PRE 工作表中的每一行与 POS
我有一个对象数组,我一次循环遍历该数组一个对象,然后进行几次检查以查看该数组中的每个对象是否满足特定条件,如果该对象满足此条件,则复制一个属性将此对象放入数组中(该属性还包含另一个对象)。 for(v
我正在编写一个必须非常快的应用程序。我使用 Qt 5.5 和 Qt Creator,Qt 的 64 位 MSVC2013 编译版本。 我使用非常困倦的 CS 来分析我的应用程序,我看到占用最多独占时间
我有以下 CountDownTimer 在我的 Android 应用程序中不断运行。 CountDownTimer timer_status; timer_status = new CountDown
有一个优化问题,我必须调用随机森林回归器的预测函数数千次。 from sklearn.ensemble import RandomForestRegressor rfr = RandomForestR
我正在努力提高现有 Asp.Net Web 应用程序的数据访问层的性能。场景是。 它是一个基于 Web 的 Asp.Net 应用程序。 数据访问层使用 NHibernate 1.2 构建并作为 WCF
我在我的 Intel Edison 上运行 Debian,并尝试使用 ffmpeg 通过 USB 网络摄像头捕获视频。我正在使用的命令是: ffmpeg -f video4linux2 -i /dev
我有一个 For循环遍历整数 1 到 9 并简单地找到与该整数对应的最底部的条目(即 1,1,1,2,3,4,5 将找到第三个“1”条目)并插入一个空白行。我将数字与仅对应于此代码的应用程序的字符串“
我有一个带有非规范化架构(1 个表)的 postgresql 数据库,其中包含大约 400 万个条目。现在我有这个查询: SELECT count(*) AS Total, (SELECT c
在 Ltac 中实现复杂的策略时,有一些 Ltac 命令或策略调用我预计会失败以及预期失败(例如终止 repeat 或导致回溯)。这些故障通常在故障级别 0 时引发。 更高级别引发的故障“逃避”周
我正在尝试提高 ansible playbook 的性能。我有一个测试剧本如下: --- - name: Test hosts: localhost connection: local g
我正在使用 axios从 Azure 存储 Blob 下载文件 (~100MB)。 axios({ method: 'get', url: uri, onDownloadProgress:
我有一个 ClojureScript 程序,主要对集合执行数学计算。它是在惯用的、独立于主机的 Clojure 中开发的,因此很容易对其进行基准测试。令我惊讶的是(与答案对 Which is fast
我有一个程序必须在硬件允许的情况下尽快发出数千个 http 请求。在现实世界中,这些连接中的每一个都将连接到一个离散的服务器,但我已经编写了一个测试程序来帮助我模拟负载(希望如此)。 我的程序使用 A
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在计算 Clojure 中 3d 点云的边界框。点云表示为 Java 原始浮点数组,点云中的每个点都使用 4 个浮点存储,其中最后一个浮点未使用。像这样: [x0 y0 z0 u0 x1 y1
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我正在尝试使用rayshader 包制作图像。我很高兴能够使用如下代码创建一个 png 文件: library(ggplot2) library(rayshader) example_plot <-
更新 显然,jQuery 模板可以被编译,并且它有助于显示带有 if 语句 的模板的性能 here . 但是如图here ,预编译的 jQuery 模板对我的情况没有多大作用,因为我的模板不包含逻辑
我是编程新手。我有一个启用分页的 ScrollView ,其中包含许多页面(最多十个),并且在每个页面上都有一个自定义按钮。每个自定义按钮都有一个自定义图像。我在 Interface Builder
我是一名优秀的程序员,十分优秀!