python - 部分 HTML 对 Scrapy 不可见-6ren

python - 部分 HTML 对 Scrapy 不可见

转载作者：行者123 更新时间：2023-11-28 22:13:41

24

4

设置

我正在使用 scrapy 来抓取住房广告。

对于每个广告，我都试图获取有关制作年份的信息。

大多数广告中都会说明此信息。

问题

当我在浏览器中检查广告及其在开发者模式下的 HTML 代码时，我可以在“关于”部分中看到 build 年份以及相关的其他信息。

但是，当我使用 Scrapy 时，我返回一个空列表。我可以抓取广告页面的其他部分(价格、房间等)，但不能抓取“关于”部分。

检查this example ad .

如果我使用 response.css('#caracteristique_bien').extract_first()，我得到，

<div id="caracteristique_bien"></div>

这就是我所能做到的。任何更深的回归都会带来空虚。

如何获得 build 年份？

最佳答案

正如我提到的，这是使用 javascript 渲染的，这意味着 html 的某些部分将由浏览器动态加载(Scrapy不是浏览器)。

这种情况的好处是 JavaScript 位于实际请求中，这意味着您仍然可以解析该信息，但方式不同。

例如要获取描述，您可以在里面找到它:

import re
import demjson

script_info = response.xpath('//script[contains(., "Object.defineProperty")]/text()').extract_first() 

# getting description
description_json = re.search("descriptionBien', (\{.+?\});", script_info, re.DOTALL)
real_description = demjson.decode(description_json)['value']

# getting surface area
surface_json = re.search("surfaceT', (\{.+?\})\);", script_info, re.DOTALL).group(1)
real_surface = demjson.decode(surface_json)['value']

...

正如您所看到的 script_info 包含所有信息，您只需要想出一种方法来解析它即可获得您想要的内容

但是有些信息不在同一响应中。要获取它，您需要执行 GET 请求:

https://www.seloger.com/detail,json,caracteristique_bien.json?idannonce=139747359

如您所见，它只需要 idannonce，您可以通过以下方式从之前的响应中获取它:

demjson.decode(re.search("idAnnonce', (\{.+?\})\);", script_info, re.DOTALL).group(1))['value']

稍后通过第二个请求，您可以通过以下方式获取例如“施工年份”:

import json

...

[y for y in [x for x in json.loads(response.body)['categories'] if x['name'] == 'Général'][0]['criteria'] if 'construction' in y['value']][0]['value']

关于python - 部分 HTML 对 Scrapy 不可见，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53780385/

24

4

0

文章推荐： java.util.timer定时器空指针异常

文章推荐： java - web.xml中debug是什么意思

文章推荐： python - scipy.stats.lognorm.interval 的倒数

typescript - A 部分部分 io-ts
我在使用 io-ts 时遇到一些问题。我发现它确实缺乏文档，我取得的大部分进展都是通过 GitHub issues 取得的。不，我不明白 HKT，所以没有帮助。基本上，我在其他地方创建一个类型，ty
java - 匹配完整文件正则表达式中的 A 部分，但不匹配 B 部分
我必须创建一个正则表达式来搜索整个文件，以找到与 Java XML 解析器的第一部分(但不是第二部分)的匹配项。这将用于防止某些 XXE 攻击。不幸的是，它确实必须是单个正则表达式，并且它确实需要搜索
c# - 部分/部分中的 asp.net mvs 部分？
我有一些简单的 Shared/_Header.cshtml 文件中的内容。 My Shared/_Layout.cshtml 通过调用插入该代码 @Html.Partial("_Header") 目前
java - Selenium 只执行循环的 if != null 部分，不运行循环的 "else if null "部分
我有一个 if-else 语句，其中: 条件 1:ID 匹配并且自动填充某些字段。然后 if 语句只填充其余字段条件 2:ID 不匹配，所有字段均为空白。 ELSE 语句将它们全部填充当我使条件
javascript - 无法在 JSFIDDLE 中使用滚动魔法(第 1 部分，共 2 部分)
我正在开发一个单页滚动网站。我正在尝试实现 ScrollMagic 并固定第一部分，以便网站的其余部分滚动到固定部分的顶部。我尝试创建一个 jsfiddle 来显示问题，但我似乎无法让 jsfiddl
javascript - 既然有

首页

博学

6Ren·AI

商城

python - 部分 HTML 对 Scrapy 不可见