python - 为什么 xpath 只选择 <ul> 中的最后一个 <li>？-6ren

python - 为什么 xpath 只选择
中的最后一个
？

转载作者：太空宇宙更新时间：2023-11-04 03:33:27

25

4

我正在尝试抓取此站点:http://www.kaymu.com.ng/ .

我抓取的 HTML 部分是这样的:

<ul id="navigation-menu">
    <li> some content </li>
    <li> some content </li>
    ...
    <li> some content </li>
</ul>

这是我的蜘蛛:

class KaymuSpider(Spider):
    name = "kaymu"
    allowed_domains = ["kaymu.com.ng"]
    start_urls = [
        "http://www.kaymu.com.ng"
    ]

    def parse(self, response):
        sel = response.selector
        menu = sel.xpath('//ul[@id="navigation-menu"]/li')

菜单只有列表中的最后一个 li 元素。当语法正确选择所有 li 元素时，我不确定为什么会这样。有什么不对的请指教，谢谢!

最佳答案

问题在于菜单是在浏览器执行 javascript 的帮助下动态构建的。 Scrapy 不是浏览器，也没有内置的 javascript 引擎。

希望有一个 script 标签包含菜单对象的 javascript 数组。我们可以找到所需的 script 标签，提取 javascript 数组，借助 json module 将其加载到 Python 列表中。并打印出菜单项名称。

来自 "Scrapy Shell" 的演示:

$ scrapy shell http://www.kaymu.com.ng/

In [1]: script = response.xpath("//script[contains(., 'categoryData')]/text()").extract()[0]

In [2]: import re

In [3]: pattern = re.compile(r'var categoryData = (.*?);\n')

In [4]: data = pattern.search(script).group(1)

In [5]: import json

In [6]: data = json.loads(data)

In [7]: for item in data:
   ....:     print item['name']
   ....:     
Fashion
Jewelry & Watches
Health & Beauty
Sporting Goods
Mobile Phones & Tablets
Audio, Video & Gaming
Computers, Laptops & Accessories
Appliances, Furniture & Decor
Books & Media
Babies & Kids
Food & Beverages
Other

关于python - 为什么 xpath 只选择 <ul> 中的最后一个 <li>？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30147905/

25

4

0

文章推荐： javascript - 更改 DIV 上的背景颜色 - 使用选项卡交换颜色

文章推荐： linux - 达到最大跳数时的 Traceroute 响应 (Linux)

文章推荐： jquery - mouseenter 和 mouseout 的结果更稳定？

文章推荐： c++ - Linux 中的库链接

jQuery:仅选择 ul，而不选择 ul ul
我正在尝试使用 jQuery 来提交一个基本的 Accordion 样式菜单。这是菜单: http://www.cybart.com/bscg/ 这是为其提供 Accordion 功能的代码片段:
html - 增加嵌套 (ul ul ul li) 下拉导航列表项的宽度
这是我的网站: http://www.simply-a-christian.com/index.html 在导航栏上，如果您移动到: 信念玛丽安教义您可以看到每个 Marian Dogma(列出了
jquery - 当 ul ul 活跃时 ul parent 移动
这可能是一个很容易回答的问题，但是，我找不到解决方案。我已经建立了一个非常简单的菜单，每当我将鼠标悬停在 ul 父项上时，它的子项 ul ul 就会变得可见。基本上它是有效的，但 parent 让位于
HTML 下拉菜单 : "nav ul ul ul li" Too Low
这是一张图片: 问题是(你可以看到):“页面”按钮太低，无法点击。我想要的是它应该靠近“联系人”。现在是代码: HTML Home About
jquery - 如何在不破坏每个

首页

博学

6Ren·AI

商城

python - 为什么 xpath 只选择
中的最后一个
？

首页

博学

6Ren·AI

商城

python - 为什么 xpath 只选择 中的最后一个 ？

python - 为什么 xpath 只选择
中的最后一个
？