xpath - 使用 XPath 从具有不必要 namespace 的文档中提取 XOM 元素-6ren

xpath - 使用 XPath 从具有不必要 namespace 的文档中提取 XOM 元素

转载作者：行者123 更新时间：2023-12-03 16:12:32

25

4

我正在尝试使用 XOM 解析外部系统返回的一些 HTML。 HTML 如下所示:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" 
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
<body>
  <div>
    Help I am trapped in a fortune cookie factory
  </div>
</body>
</html>

(实际上它更困惑，但它有这个 DOCTYPE 声明和这些命名空间和语言声明，上面的 HTML 表现出与真正的 HTML 相同的问题。)

我想要做的是提取 <div>的内容，但 namespace 声明似乎混淆了 XPath。如果我去掉命名空间声明(手动，从文件中)，下面的代码会找到 <div> ，没问题:

Document document = ...
Nodes divs = document.query("//div");

但是对于命名空间，返回的 Nodes大小为 0。

好吧，如果我以编程方式剥离命名空间怎么样？

Element rootElement = document.getRootElement();
rootElement.removeNamespaceDeclaration(rootElement.getNamespacePrefix());

...看起来它应该工作，但什么也不做。来自 javadoc :

This method only removes additional namespaces added with addNamespaceDeclaration.

好的，我想，我将为查询提供命名空间:

XPathContext context = 
    XPathContext.makeNamespaceContext(document.getRootElement());
Nodes divs = document.query("//div", context);

大小仍然为零。

手动构建命名空间上下文怎么样？

XPathContext context = context = new XPathContext(
     rootElement.getNamespacePrefix(), rootElement.getNamespaceURI());
Nodes divs = document.query("//div", context);

XPathContext构造函数爆炸:

nu.xom.NamespaceConflictException: 
    XPath expressions do not use the default namespace

所以，我正在寻找:

一种使此查询起作用的方法，或

一种以编程方式剥离命名空间声明的方法，或

对正确方法的解释，假设这两种方法都是错误的。

更新:基于 Lev Levitsky's answer和 Jaxen FAQ我想出了以下黑客:

XPathContext context = new XPathContext(
    "foo", 
    document.getRootElement().getNamespaceURI());
Nodes divs = document.query("//foo:div");

这对我来说仍然有点疯狂，但我想这就是 Jaxen 希望你做事的方式。

更新 #2:如下所述和 all over the Internet ，这不是贾克森的错；它只是 XPath 是 XPath。

所以，虽然这个 hack 有效，但我仍然想要一种剥离命名空间声明的方法。最好不要使用 XSLT。

最佳答案

您应该使用类似的东西直接指定命名空间

Nodes divs = document.query("//{http://www.w3.org/1999/xhtml}div");

或使用映射到各自命名空间的前缀(我猜这就是 NamespaceContext 的用途，但您的查询中没有前缀)。

不幸的是，我不知道它是如何在 Java 中实现的，但如果有帮助，我可以提供一个 Python 示例。

关于xpath - 使用 XPath 从具有不必要 namespace 的文档中提取 XOM 元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9673581/

25

4

0

文章推荐： xml - 如何在 Xpath "contains()"函数中使用变量节点集

文章推荐： ruby-on-rails - Rails 3中缺少部分错误

文章推荐： java - 错误 : java. lang.String 无法转换为 org.w3c.dom.Node

文章推荐： xslt - 获取属性名称并在 xslt 中进行一些操作

namespaces - 未捕获的 ReferenceError : namespace is not defined when namespacing in coffeescript
大家好:我正在尝试创建一个命名空间，以便我可以在整个应用程序中的不同 CoffeeScript 文件中使用一个类(至少这是我对命名空间用途的理解) 我在这里找到了一个很好的例子:Classes wit
javascript - 如何在同一个 namespace 中创建两个不同的 namespace ，避免覆盖第一个 namespace ？
我想使用两个字符串(我不知道它们的内容)来创建两个 namespace 。如果 namespace 存在，我不想创建一个新的 namespace 。这是我的代码: function createNam
namespaces - 支柱 2 : root namespace acting same as default namespace
在 Struts 2 中，我看到根命名空间提供与根命名空间相同的行为，即充当“包罗万象”。我需要限制我的应用程序中的操作只能从一个 URL 访问，包括 URL 中没有 namespace 的操作。我的
namespaces - SASS:如何将样式表中的每个规则与选择器一起添加到 'namespace'
我想在旧的代码库中包含新的 SASS。考虑到已经编写的新样式，我如何避免新样式泄漏。例如 .box width: 100% // ... .tab display: inline-blo
PHP 命名空间 :\My\Namespace or My\Namespace?
我的\命名空间 \My\Namespace 那么，我应该使用哪一个，我看到了 php documentation主要使用 My\Namespace。但据说 \My\Namespace 更好，因为没有
namespaces - 没有要加载的文件——redis-namespace
我正在研究 Rails 2.3.8。我的 environment.rb 中有以下内容 config.gem "redis" config.gem "redis-namespace", :lib =>
namespaces - 在命名空间声明后立即添加 "using namespace"是否可以接受？
我有一个包含一些类型定义的小命名空间，我用它来使我的代码看起来更简洁。但是，我不想在每个使用这些类型之一的文件中添加“using namespace ...”行，毕竟我已经必须为文件添加 #inclu
namespaces - 如何获取 MediaWiki namespace 列表？
如何获取 MediaWiki namespace 列表？最好有姓名和号码。最佳答案使用API:api.php?action=query&meta=siteinfo&siprop=namespa
namespaces - TCL需要 'namespace export '吗？
为了使用“namespace import *”命令在不同的命名空间中使用该命名空间的变量/过程，“命名空间导出...”是否是必需的。我们真的应该在源命名空间中进行“导出”并在目标命名空间中进行“导入
kubernetes - 如何将k8s对象从一个 namespace 切换到另一个 namespace ？
假设我有以下 list ，例如部署，服务和入口。在默认 namespace 中，一切正常。虽然我想将资源投入到用manifest.yaml创建的另一个命名空间。我以为如果我写了 kubectl app
c# - 有没有办法以编程方式将类从一个 namespace 移动到另一个 namespace ？
我想以编程方式将一个类从一个命名空间移动到另一个命名空间。这包括调整移动类在其先前命名空间中的任何依赖项。我猜我可以以某种方式利用 Roslyn 项目，但我找不到起点。编辑: 我正在尝试在 C#
关于Spring不同类型的注入方式 p-namespace,c-namespace
Spring不同类型的注入方式 spring官网代码示例 1、不同类型的注入方式 <?xml version="1.0" encoding="UTF-8&qu
php - 在 namespace 声明中定义相同 namespace 的使用是一种好习惯吗？
我想知道，考虑到这段代码: namespace A\B; use A\B as AB; use \Z\V as ZV; // another used namespace class Merry {
namespaces - 为什么 "using namespace System;"会导致缺少类型说明符？
我正在研究一个似乎一切都很好的“董事会”类(class)。不知何故，在其他类(class)上工作了大约一个小时后，Board 在错误方面表现出一些非常奇怪的行为。 //headerfile #prag
namespaces - TYPO3 8.2 : ViewHelper Namespace
我尝试在 TYPO3 扩展中创建多个 ViewHelper。但是现在我尝试将 ViewHelper 放在子目录中，例如扩展\类\ View 助手\自定义。 ViewHelper 的新
namespaces - Laravel - Eloquent : Polymorphic relations with namespace
我的情况是:日历属于客户或销售员因为我还有像 Event 和 File 这样的类，所以我将命名空间 App\Models 用于我所有的模型类。所以我设置了多态关系: 在日历.php public
syntax - `#namespace > .mixin()` 与 `.namespace.mixin()`
所有 Less 文档和教程都使用 #namespace > .mixin()当它进入命名空间时的语法。但是我发现自己更习惯于 .namespace.mixin()语法，即: .namespace()
namespaces - MS 机器人工作室 : "contract is different from that of the namespace"
我正在尝试使用 MS Robotics Studio 和 VS 2008 构建 DSS 服务，但是在构建时，我收到来自 dssproxy.exe 的错误消息: The class MyServ
namespace-organisation - 在C#中的不同 namespace 中具有相同名称的类是一个好主意吗？
例如，我们有两个用于解析简历的类，一个用于解析Excel，另一个用于解析HTML。我的同事们喜欢做的就是将这两个类命名为相同的名称，并将它们放在不同的命名空间中，如下所示: namespace XX.
namespaces - "using namespace"用于 Doxygen 评论
我的库的所有类都在一个命名空间中定义。当我为 Doxygen 创建主页时，我必须在注释中明确使用这个命名空间来让 Doxygen 生成链接。我想对整个注释块使用“使用命名空间”之类的东西。一个例子:

首页

博学

6Ren·AI

商城

xpath - 使用 XPath 从具有不必要 namespace 的文档中提取 XOM 元素