gpt4 book ai didi

python - 使用 Pyquery、Requests 和 Gadget 选择器提取 Web 元素

转载 作者:太空宇宙 更新时间:2023-11-03 14:00:03 25 4
gpt4 key购买 nike

我能够从中提取表值 website使用以下代码。

from pyquery import PyQuery as pq
import requests

url = "https://finviz.com/screener.ashx"
content = requests.get(url).content
doc = pq(content)
Tickers = doc(".screener-link-primary").text()

print(Tickers)

但我只能提取前 20 个值。页面末尾有一个“下一步”按钮,其中包含指向下一组值的链接。

如何自动提取此链接、获取新页面并提取新值集并附加到现有列表?

最佳答案

您可以迭代所有页面,例如:

counter = 1

while True:
url = "https://finviz.com/screener.ashx?v=111&r=%d" % counter
content = requests.get(url).content
counter += 20

请注意,对于第一页 r 参数(我猜代表起始条目索引)将为第二页的 1 - 21 ,对于第三个 -41...所以我使用 + 20 增量作为 计数器

您还应该在到达最后一页时添加break。通常,我们会检查要抓取的新数据是否可用,如果不可用 - break

关于python - 使用 Pyquery、Requests 和 Gadget 选择器提取 Web 元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49319528/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com