gpt4 book ai didi

python - 用 Python 抓取具有可点击内容的网站

转载 作者:太空宇宙 更新时间:2023-11-03 17:51:54 24 4
gpt4 key购买 nike

我想废弃以下网站的内容:

http://financials.morningstar.com/ratios/r.html?t=AMD

关键比率下,我想单击“增长”按钮,然后在 Python 中废弃数据。

我怎样才能做到这一点?

最佳答案

可以通过requests+BeautifulSoup来解决。有一个异步 GET 请求发送到 http://financials.morningstar.com/financials/getKeyStatPart.html您需要模拟的端点。 Growth 表位于 div 内,其中 id="tab-growth":

from bs4 import BeautifulSoup
import requests


url = 'http://financials.morningstar.com/ratios/r.html?t=AMD'
keystat_url = 'http://financials.morningstar.com/financials/getKeyStatPart.html'

with requests.Session() as session:
session.headers = {'User-Agent': 'Mozilla/5.0 (Linux; U; Android 4.0.3; ko-kr; LG-L160L Build/IML74K) AppleWebkit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30'}

# visit the target url
session.get(url)

params = {
'callback': '',
't': 'XNAS:AMD',
'region': 'usa',
'culture': 'en-US',
'cur': '',
'order': 'asc',
'_': '1426047023943'
}
response = session.get(keystat_url, params=params)

# get the HTML part from the JSON response
soup = BeautifulSoup(response.json()['componentData'])

# grab the data
for row in soup.select('div#tab-growth table tr'):
print row.text

关于python - 用 Python 抓取具有可点击内容的网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28978362/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com