- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我试图抓取一个名为 teamblind.com 的网站.这是 start_url - referrals section. .它在其页面上实现无限滚动,并且执行简单的爬行仅返回 50 个结果。我想获得推荐部分中的所有帖子。
这是我的代码 -
class TeamBlindReferrals(scrapy.Spider):
name = 'blindreferrals'
#define the start_requests methods to iterate and generate request objects from the start urls
def start_requests(self):
urls = ['https://www.teamblind.com/topics/Referrals']
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
#define the parse function to extract data from the website
def parse(self, response):
posts = response.css('li.word-break')
for item in posts:
yield{
'title': item.xpath('//a/@title').get(),
'views': item.xpath("//a[contains(@class, 'view')]/text()").get(),
'comments': item.xpath("//a[contains(@class, 'comment')]/text()").get(),
'likes': item.xpath("//a[contains(@class, 'like')]/text()").get(),
'link': item.xpath("//li/a/@href").get()
}
我在一个答案中发现,可以通过检查 Developer Tools 的 Network 选项卡中的响应 URL 来抓取具有无限滚动功能的网站。我试着检查那边的回应,发现两件事 -
{"payload":"}
在这种情况下如何抓取痧?
最佳答案
从技术上讲,对站点进行逆向工程应该是可能的,但这在这里绝非易事,需要弄清楚有效载荷是如何被 JavaScript 解码的。提示:从查看 payload
开始JavaScript 文件中的引用。
否则,Splash 可能不太适合,因为每个请求都必须向下滚动,直到到达所需的页面。当您到达后面的页面时,获取目标页面所需的数量或请求和时间将显着增加。
因此,如果逆向工程不在考虑之列,Selenium 或类似的替代品将是唯一的出路。
关于python - 当 xhr 响应不可读时如何抓取无限滚动页面?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63317278/
我正在尝试将抓取的 xml 输出写入 json。由于项目不可序列化,抓取失败。 从这个问题来看,它建议您需要构建一个管道,未提供的答案超出了问题 SO scrapy serializer 的范围。 所
有没有一种方法可以通过重载函数来区分参数是在编译时可评估还是仅在运行时可评估? 假设我有以下功能: std::string lookup(int x) { return table::va
我正在使用 MVVM 模式编写一个应用程序。我通过将 View 的 DataContext 属性设置为 ViewModel 的实例来向 View 提供数据。一般来说,我只是从那里使用 Binding
对于一个项目,我正在使用带有简单 python module 的传感器收集多个红外命令。 . 我收到如下字节字符串: commando1= b'7g4770CQfwCTVT9bQDAzVEBMagGR
我有一个计算方法,可以在用户使用 Cartridge 作为我的商店框架结账时计算税费。 税 = 税 * 小数(str(settings.SHOP_DEFAULT_TAX_RATE)) 计算工作正常。然
我正在用 pygame 制作一个绘图程序,我想在其中为用户提供一个选项来保存程序的确切状态,然后在稍后重新加载它。在这一点上,我保存了我的全局字典的副本,然后遍历, pickle 每个对象。 pyga
在 C++11 之前,我可以使用它来使类不可复制: private: MyClass(const MyClass&); MyClass& operator=(const MyClass&); 使用 C
大家好 :) 我在我的 VC++ 项目中使用 1.5.4-all (2014-10-22)(适用于 x86 平台的 Microsoft Visual C++ 编译器 18.00.21005.1)。 我
我有一个 python 文件:analysis.py: def svm_analyze_AHE(file_name): # obtain abp file testdata = pd.
这个问题已经有答案了: How to serialize SqlAlchemy result to JSON? (37 个回答) 已关闭 4 年前。 我正在编写小查询来从 mysql 获取数据数据库,
我是 Python 初学者,我在 JSON 方面遇到了一些问题。在我正在使用的教程中有两个函数: def read_json(filename): data = [] if os.pa
我目前正在开发一个针对 iPad 的基于 HTML5 Canvas/JavaScript 的小型绘图应用程序。它在 Safari 中运行。到目前为止,除了一件事之外,一切都进展顺利。 如果我旋转设备,
以下代码无法使用 Visual Studio 2013 编译: #include struct X { X() = default; X(const X&) = delete;
嗨,我制作了一个文本分类分类器,我在其中使用了它,它返回一个数组,我想返回 jsonresponse,但最后一行代码给我错误 'array(['cycling'], dtype =object) 不可
我使用 Flask 和 Flask-Login 进行用户身份验证。 Flask-Sqlalchemy 将这些模型存储在 sqlite 数据库中: ROLE_USER = 0 ROLE_ADMIN =
如果您尝试发送不可 JSON 序列化的对象(列表、字典、整数等以外的任何对象),您会收到以下错误消息: "errorMessage": "Object of type set is not JSON
我在尝试 move std::vector 时遇到崩溃其中 T显然是不可 move 的(没有定义 move 构造函数/赋值运算符,它包含内部指针) 但为什么 vector 的 move 函数要调用 T
我尝试在用户成功登录后将 token 返回给他们,但不断收到以下错误: 类型错误:“字节”类型的对象不可 JSON 序列化 我该如何解决这个问题?这是我到目前为止的代码: if user:
我是一名优秀的程序员,十分优秀!