gpt4 book ai didi

python - 使用 Python 进行异步请求爬取

转载 作者:行者123 更新时间:2023-12-04 10:22:54 27 4
gpt4 key购买 nike

我想抓取链接:
http://data.eastmoney.com/hsgt/index.html

但是我发现XHR的文档都是没有数据的,而是EventSteam,那怎么爬取页面的完整信息。

比如我想在页面上爬-94.67人民币。

我的代码如下:

import requests
import pandas as pd
from pyquery import PyQuery
from lxml import etree
import time

response = requests.get(url='http://data.eastmoney.com/hsgt/index.html',
headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'})
response.encoding = 'GB2312'

# this shows False
'-94.67' in response.text

然后我尝试安装dryscape但失败了,它说我没有网络服务器文件。

非常感谢您的帮助。

最佳答案

正如您提到的,由客户端中运行的 javascript 管理的 XHR 请求没有被执行。这归结为 request` 包不执行 javascript 并且不试图模仿 Web 浏览器的事实。您应该研究另一种方法。有很多。你有很多选择,我建议你阅读像 the following 这样的页面。有关该问题的更多背景信息。

而且,另外,也许看看类似 dryscrape 的东西.我自己没用过,好像有点像

import dryscrape

sess = dryscrape.Session()
sess.visit('http://data.eastmoney.com/hsgt/index.html')
source = sess.body()

是你所追求的。玩得开心。

关于python - 使用 Python 进行异步请求爬取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60757596/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com