Python lxml错误 "namespace not defined."-6ren

Python lxml错误 "namespace not defined."

转载作者：太空宇宙更新时间：2023-11-03 16:48:40

25

4

我被一些奇怪的 xml 逼疯了，如果有一些指点，我将不胜感激:

文档定义如下:

<sphinx:document id="18059090929806848187">
  <url>http://www.some-website.com</url>
  <page_number>104</page_number>
  <size>7865</size>
</sphinx:document>

现在，我需要读取大量文件(其中 500m+ 这些文件都是 gz 压缩的)并从一些包含的标签中获取文本值。

示例代码:

from lxml import objectify, etree
import gzip

with open ('file_list','rb') as file_list:
 for file in file_list:
  in_xml = gzip.open(file.strip('\n'))
  xml2 = etree.iterparse(in_xml)
  for action, elem in xml2:
   if elem.tag == "page_number":
    print elem.text + str(file)

返回第一个值 elem.text，但仅针对列表中的第一个文件，并很快出现错误:

lxml.etree.XMLSyntaxError:文档上的命名空间前缀 sphinx 未定义，第 1 行，第 20 列

请原谅我的无知，但 xml 确实让我很头疼，我已经为此苦苦挣扎了一段时间。有没有办法可以定义 namespace 前缀或以其他更智能的方式处理此问题？

谢谢

最佳答案

您的输入文件不是格式正确的 XML。我假设它是来自较大 XML 文档的片段。

您的选择是:

重建较大的文档。如何执行此操作取决于您的应用程序。您可能需要咨询创建您正在解析的文件的人员。
尽管有错误，仍解析该文件。为此，请使用 lxml.etree.iterparse 中的 recover 关键字:
```
xml2 =etree.iterparse(in_xml, recover=True)
```

关于Python lxml错误 "namespace not defined."，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36085774/

25

4

0

文章推荐： c# - 构建灵活且可重用的类层次结构

文章推荐： c# - 在实现 ASP.NET 自定义输出缓存方面需要建议

文章推荐： qt - 在 Ubuntu 12 上编译 Qt 4.8.3 失败

文章推荐： python - Ipython笔记本水平缩放

namespaces - 未捕获的 ReferenceError : namespace is not defined when namespacing in coffeescript
大家好:我正在尝试创建一个命名空间，以便我可以在整个应用程序中的不同 CoffeeScript 文件中使用一个类(至少这是我对命名空间用途的理解) 我在这里找到了一个很好的例子:Classes wit
javascript - 如何在同一个 namespace 中创建两个不同的 namespace ，避免覆盖第一个 namespace ？
我想使用两个字符串(我不知道它们的内容)来创建两个 namespace 。如果 namespace 存在，我不想创建一个新的 namespace 。这是我的代码: function createNam
namespaces - 支柱 2 : root namespace acting same as default namespace
在 Struts 2 中，我看到根命名空间提供与根命名空间相同的行为，即充当“包罗万象”。我需要限制我的应用程序中的操作只能从一个 URL 访问，包括 URL 中没有 namespace 的操作。我的
namespaces - SASS:如何将样式表中的每个规则与选择器一起添加到 'namespace'
我想在旧的代码库中包含新的 SASS。考虑到已经编写的新样式，我如何避免新样式泄漏。例如 .box width: 100% // ... .tab display: inline-blo
PHP 命名空间 :\My\Namespace or My\Namespace?
我的\命名空间 \My\Namespace 那么，我应该使用哪一个，我看到了 php documentation主要使用 My\Namespace。但据说 \My\Namespace 更好，因为没有
namespaces - 没有要加载的文件——redis-namespace
我正在研究 Rails 2.3.8。我的 environment.rb 中有以下内容 config.gem "redis" config.gem "redis-namespace", :lib =>
namespaces - 在命名空间声明后立即添加 "using namespace"是否可以接受？
我有一个包含一些类型定义的小命名空间，我用它来使我的代码看起来更简洁。但是，我不想在每个使用这些类型之一的文件中添加“using namespace ...”行，毕竟我已经必须为文件添加 #inclu
namespaces - 如何获取 MediaWiki namespace 列表？
如何获取 MediaWiki namespace 列表？最好有姓名和号码。最佳答案使用API:api.php?action=query&meta=siteinfo&siprop=namespa
namespaces - TCL需要 'namespace export '吗？
为了使用“namespace import *”命令在不同的命名空间中使用该命名空间的变量/过程，“命名空间导出...”是否是必需的。我们真的应该在源命名空间中进行“导出”并在目标命名空间中进行“导入
kubernetes - 如何将k8s对象从一个 namespace 切换到另一个 namespace ？
假设我有以下 list ，例如部署，服务和入口。在默认 namespace 中，一切正常。虽然我想将资源投入到用manifest.yaml创建的另一个命名空间。我以为如果我写了 kubectl app
c# - 有没有办法以编程方式将类从一个 namespace 移动到另一个 namespace ？
我想以编程方式将一个类从一个命名空间移动到另一个命名空间。这包括调整移动类在其先前命名空间中的任何依赖项。我猜我可以以某种方式利用 Roslyn 项目，但我找不到起点。编辑: 我正在尝试在 C#
关于Spring不同类型的注入方式 p-namespace,c-namespace
Spring不同类型的注入方式 spring官网代码示例 1、不同类型的注入方式 <?xml version="1.0" encoding="UTF-8&qu
php - 在 namespace 声明中定义相同 namespace 的使用是一种好习惯吗？
我想知道，考虑到这段代码: namespace A\B; use A\B as AB; use \Z\V as ZV; // another used namespace class Merry {
namespaces - 为什么 "using namespace System;"会导致缺少类型说明符？
我正在研究一个似乎一切都很好的“董事会”类(class)。不知何故，在其他类(class)上工作了大约一个小时后，Board 在错误方面表现出一些非常奇怪的行为。 //headerfile #prag
namespaces - TYPO3 8.2 : ViewHelper Namespace
我尝试在 TYPO3 扩展中创建多个 ViewHelper。但是现在我尝试将 ViewHelper 放在子目录中，例如扩展\类\ View 助手\自定义。 ViewHelper 的新
namespaces - Laravel - Eloquent : Polymorphic relations with namespace
我的情况是:日历属于客户或销售员因为我还有像 Event 和 File 这样的类，所以我将命名空间 App\Models 用于我所有的模型类。所以我设置了多态关系: 在日历.php public
syntax - `#namespace > .mixin()` 与 `.namespace.mixin()`
所有 Less 文档和教程都使用 #namespace > .mixin()当它进入命名空间时的语法。但是我发现自己更习惯于 .namespace.mixin()语法，即: .namespace()
namespaces - MS 机器人工作室 : "contract is different from that of the namespace"
我正在尝试使用 MS Robotics Studio 和 VS 2008 构建 DSS 服务，但是在构建时，我收到来自 dssproxy.exe 的错误消息: The class MyServ
namespace-organisation - 在C#中的不同 namespace 中具有相同名称的类是一个好主意吗？
例如，我们有两个用于解析简历的类，一个用于解析Excel，另一个用于解析HTML。我的同事们喜欢做的就是将这两个类命名为相同的名称，并将它们放在不同的命名空间中，如下所示: namespace XX.
namespaces - "using namespace"用于 Doxygen 评论
我的库的所有类都在一个命名空间中定义。当我为 Doxygen 创建主页时，我必须在注释中明确使用这个命名空间来让 Doxygen 生成链接。我想对整个注释块使用“使用命名空间”之类的东西。一个例子:

首页

博学

6Ren·AI

商城

Python lxml错误 "namespace not defined."