gpt4 book ai didi

javascript - Python Web-scraping,如何使用 Requests-HTML 库单击 'Next'

转载 作者:行者123 更新时间:2023-12-01 16:04:33 25 4
gpt4 key购买 nike

我正在尝试使用 python requests-html 模块从“https://fortune.com/global500/2019/search/”获取数据。我能够获得第 100 个项目(来自第 1 页),因为该页面启用了 javascript。我们需要点击“下一步”来加载第二页,目前我只得到前 100 个项目。

当我在浏览器上单击“下一步”时,地址栏上的 url 没有改变。所以我不知道如何使用 requests-html 获取下一页。

from requests_html import HTMLSession

def get_fortune500():
companies = []
url = 'https://fortune.com/global500/2019/search/'
session = HTMLSession()
r = session.get(url)
r.html.render(wait=1, retries=2)
table = r.html.find('div.rt-tbody', first=True)
rows = table.find('div.rt-tr-group')
for row in rows:
row_data = []
cells = row.find('div.rt-td')
for cell in cells:
celldata = cell.text.lstrip('$').replace(',', '')
row_data.append(celldata)
companies.append(row_data)
return companies

fortune_list = get_fortune500()
print(fortune_list)
print(len(fortune_list))

我真的很感谢你的时间。

最佳答案

这是所有500个列表

https://content.fortune.com/wp-json/irving/v1/data/franchise-search-results?list_id=2666483

该网站将此 API 的响应存储在浏览器 IndexedDB 中,之后只有前端控制。

您可以找出从第一个请求中读取该响应的方法。

关于javascript - Python Web-scraping,如何使用 Requests-HTML 库单击 'Next',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59472842/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com