gpt4 book ai didi

html - 无法在 Scrapy 中使用 XPath 访问 HTML 元素

转载 作者:行者123 更新时间:2023-12-03 17:29:52 26 4
gpt4 key购买 nike

我是网络爬虫的新手,所以我在玩爬虫并试图爬取某个网站。

我正在使用 windows 上的 scrapy shell,只是试图为我想要访问的特定元素建立正确的 XPath。该元素是一个时间表,这是 HTML:

enter image description here

我正在尝试访问 rv-schedule-module 及其所有子节点。在 rv-schedule-module 之前,我可以访问所有节点,但除此之外,所有 XPath 调用都返回 null。例如:

enter image description here

调用进程会返回数据,直到我想访问 rv-schedule-module 下的 div。该调用返回 null。

我究竟做错了什么?

最佳答案

就像我怀疑内容是动态创建的一样,因为它是由 javascript 处理的!

当您检查元素时,它会在那里,但如果您检查页面源,它​​不会。 Scrapy 本身不处理 javascript,你需要像 scrapy-splash 这样的东西或 Selenium .

有一个非常好的帖子,全能的 Alex 解释了如何使用它 - https://stackoverflow.com/a/30378765/2781701

关于html - 无法在 Scrapy 中使用 XPath 访问 HTML 元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37797323/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com