Python:解析 SGML-6ren

Python:解析 SGML

转载作者：行者123 更新时间：2023-11-28 22:42:28

24

4

我正在尝试在 Python 中解析一些 SGML，如下所示:

<!DOCTYPE lewis SYSTEM "lewis.dtd">
<TEXT>
    <TITLE>One</TITLE>
    <BODY>Sample One</BODY>
</TEXT>
<TEXT>
    <TITLE>Two</TITLE>
    <BODY>Sample Two</BODY>
</TEXT>

在这里，我只是在寻找 <BODY> 中的所有内容标签(即 ["Sample One", "Sample Two"] )。

我试过使用 BeautifulSoup，但它不喜欢 <!DOCTYPE>在第一行中，还希望所有内容都包含在根标记周围，如 <everything></everything> .虽然我可以在将其传递到 BeautifulSoup 之前手动进行这些更改，但感觉有点太老套了。

我是 SGML 的新手，也没有与 BeautifulSoup 结婚，所以我愿意接受任何建议。

(对于那些好奇的人:我的具体用例是 reuters21578 数据集。)

最佳答案

您可以尝试使用 'html.parser' 作为解析器而不是 lxml-xml。 lxml-xml 期望文本是正确的 xml，但事实并非如此。

示例/演示 -

>>> from bs4 import BeautifulSoup
>>> s = """<!DOCTYPE lewis SYSTEM "lewis.dtd">
... <TEXT>
...     <TITLE>One</TITLE>
...     <BODY>Sample One</BODY>
... </TEXT>
... <TEXT>
...     <TITLE>Two</TITLE>
...     <BODY>Sample Two</BODY>
... </TEXT>"""
>>> soup = BeautifulSoup(s,'html.parser')
>>> soup.find_all('body')
[<body>Sample One</body>, <body>Sample Two</body>]

关于Python:解析 SGML，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31694553/

24

4

0

文章推荐： java - 为什么我在此 REST 教程中得到 404？

文章推荐： python - ubuntu 上 python 的应用程序引擎导入本地数据存储

include - 我可以在 sgml 文档中引用外部 sgml 声明吗？
我比较习惯xml文档和工具，但是需要和sgml打交道。我有一个正在使用的 sgml 文档 nsgmls解析，我需要包含一个特定的 sgml 声明。如果我在命令行上指定声明文件，它就可以正常工作: $
Python:解析 SGML
我正在尝试在 Python 中解析一些 SGML，如下所示: One Sample One Two Sample Two 在这里，我只是在寻找中的所有内容
Eclipse IDE : SGML plugin?
您知道在 Eclipse 中编辑 SGML 文件的插件吗？最佳答案目前还没有这样的插件。关于Eclipse IDE : SGML plugin?，我们在Stack Overflow上找到一个类似
xpath - 如何匹配通过子节点继续的文本序列(例如使用 sgml 样式标记)？
Match this please Don't match this Match this please 像这样的表达: //thing[text()='Match this plea
c# - SGML 解析器 .NET 建议
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
java - 使用正则表达式将 SGML 转换为 XML？
我想使用 regex 将 SGML 转换为 XML。喜欢: 转换: 111222 至: 111222 我编写了以下代码来进行转换: String a = "abcabc2"; a = a.replac
python - Python 中的 SGML 解析器
我是 Python 的新手。我有以下代码: class ExtractTitle(sgmllib.SGMLParser): def __init__(self, verbose=0): sgml
html - CSS 中的 SGML "content"
是否可以使用 css :before { content:""} 语句输出 SGML 字符？这不起作用: span:before { content:"√" } 转义好像也不行。最佳答
HTML5 不基于 SGML，因此不需要引用 DTD
发件人:http://www.w3schools.com/tags/tag_doctype.asp The declaration is not an HTML tag; it is an inst
xml - 何时使用 SGML 和 XML？
这个问题等同于:“使用 SGML 优于 XML，以及使用 XML 优于 SGML 的优点和缺点是什么？”。我已经知道 SGML 和 XML 之间的一些相同点和不同点，但他们没有回答这个问题。相似之
Java SGML 到 XML 的转换？
有人知道将 SGML 转换为 XML 的方法或库吗？编辑:澄清一下，我必须用 Java 进行转换，而且我不能使用 SP 解析器或相关的 SX 工具。最佳答案似乎普遍的共识是，在 Java 中没有
xml - SGML 和 XML 有什么区别？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this qu
xml - 是否有理由使用 SGML 而不是 XML？
据我了解，XML 是 SGML 的一个子集，旨在简化它并鼓励更广泛的使用。我想大多数有用的特性都被引入了 XML，但是 SGML 中是否有任何强大到足以激励使用它而不是 XML 的特性(并接受复杂性
markdown - 用于 Markdown 的 SGML 解析器可能吗？
SGML 有许多允许标记最小化的可选特性，例如可选或隐含的开始和结束标记，以及用于更简单的标记别名的 SHORTREF。因此是否有可能编写一个 DTD，一个完美的 SGML 实现，这一直是一个罕见的甚
java - 使用 SGML 解析 Java 字符串
我有一个带有 SGML 的 Java 字符串，类似这样...... I know you ducky suck and I rocky rock 我如何解析它以获取例如内的文本以便让“鸭子”出去
java - 将 HTML 解析器与 SGML 结合使用
我想将 XML 解析器与 SGML 文档一起使用，但这不起作用。阅读了一些建议后，解决这个问题的唯一方法似乎是使用 HTML 解析器。所以我基本上只是想做一个简单的查询，从我的文档中提取故事标题。 (
c - 纯 C 中的 SGML 解析器
我正在寻找一个用纯 C 编写的开源 SGML 解析器。这是为了解析真正的 SGML，而不是格式错误的东西。有什么想法吗？最佳答案有 OpenSP，它是 OpenJade 的一部分项目，但在 C+
php - 如何使用 PHP 替换字符串中的非 SGML 字符？
我使用 PHP4 和 HTML 4.01(使用字符集 ISO-8859-15，即 latin-9)编写了一个留言簿。数据以字符集(ISO-8859-1，即 latin-1)保存在 MySQL 数据库中
c# - sgml/xml 中的参数实体引用是否可以使用 .NET 解析？
当我尝试使用 XDocument 解析以下数据时，出现以下错误: “XMLException:内部标记中不允许参数实体引用” 这是我要解析的示例数据: ]> &questio
perl - 为什么 SGML::Parser::OpenSP 找不到符号 __ZTI15SGMLApplication？
我正在尝试从 cpan shell“安装 SGML::Parser::OpenSP”，但在第一次“make test”时失败。如果我进入构建目录并运行 make test，我也会得到同样的错误。我相

首页

博学

6Ren·AI

商城

Python:解析 SGML