gpt4 book ai didi

java - 处理两种情况的 XPath 1.0 查询

转载 作者:数据小太阳 更新时间:2023-10-29 02:37:24 26 4
gpt4 key购买 nike

我在 XPaths 方面不是很有经验,但我已经尝试了很长时间并进行了大量搜索,但没有找到解决方案。

我正在从 XHTML 中提取大部分看起来像这样的信息

<html>
<head></head>
<body>
<div class="preamble">
<p>Some text 1</p>
</div>
<h1>Some headline</h1>
<p>Some other text</p>
</body>
</html>

我最感兴趣的是序言 div 中包含的文本,它存在于我的大部分文档中。问题是那些缺少 div,在这些情况下我想提取 body 标签下的其他文本。

在这种情况下,我想得到“一些文本 1”,但如果没有 div,我会接受“一些标题和一些其他文本”之类的东西。

使用 XPath 2.0 没问题,但情况限制了我使用“核心”1.0 集中的功能。

我的问题是这种行为是否可以在一个 XPath 1.0 查询中实现,或者我是否应该放弃它?

问候/马格纳斯

最佳答案

试试这个 XPath:

//div[@class = 'preamble'] 
| //body/*[not(preceding-sibling::div[@class = 'preamble'])
and not(self::div[@class = 'preamble'])]

关于java - 处理两种情况的 XPath 1.0 查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6992442/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com