gpt4 book ai didi

带有原子命名空间的用于scrapy的Xpath

转载 作者:行者123 更新时间:2023-12-04 17:06:25 25 4
gpt4 key购买 nike

我正在尝试使用 scrapy 从 xml 文件中抓取数据。
该文件的结构如下:

<feed xml:base="https://example.com/sap/...">
<entry><id>http://example.com/.../idset</id>
<m:properties>
<d:SubID>xyz</d:JobID>
<d:Posting>123456</d:Posting>
<d:Title>BoringTitle</d:Title>
</m:properties>
</entry>
</feed>

在 Scrapy 中,我导入 atom 命名空间:
xxs = XmlXPathSelector(response)
xxs.register_namespace("atom", "http://www.w3.org/2005/Atom")

并且可以提取一些数据
xxs.xpath("//atom:entry").extract()

但是,我发现无法用冒号选择数据:
<d:Title>BoringTitle</d:Title>

打印标题的正确 xpath 是什么?
也许有一个简单的答案,我是一名机械工程师,为一个爱好项目做这件事。

任何帮助,将不胜感激!

亲切的问候

约翰

最佳答案

mentioned in the question comments ,您需要为 d 添加命名空间以及。

但是,在您的情况下,简单地 remove all namespaces 可能更好并在没有它们的情况下工作。

关于带有原子命名空间的用于scrapy的Xpath,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54047092/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com