- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试在 Python 中解析一些 SGML,如下所示:
<!DOCTYPE lewis SYSTEM "lewis.dtd">
<TEXT>
<TITLE>One</TITLE>
<BODY>Sample One</BODY>
</TEXT>
<TEXT>
<TITLE>Two</TITLE>
<BODY>Sample Two</BODY>
</TEXT>
在这里,我只是在寻找 <BODY>
中的所有内容标签(即 ["Sample One", "Sample Two"]
)。
我试过使用 BeautifulSoup,但它不喜欢 <!DOCTYPE>
在第一行中,还希望所有内容都包含在根标记周围,如 <everything></everything>
.虽然我可以在将其传递到 BeautifulSoup 之前手动进行这些更改,但感觉有点太老套了。
我是 SGML 的新手,也没有与 BeautifulSoup 结婚,所以我愿意接受任何建议。
(对于那些好奇的人:我的具体用例是 reuters21578 数据集。)
最佳答案
您可以尝试使用 'html.parser'
作为解析器而不是 lxml-xml
。 lxml-xml
期望文本是正确的 xml,但事实并非如此。
示例/演示 -
>>> from bs4 import BeautifulSoup
>>> s = """<!DOCTYPE lewis SYSTEM "lewis.dtd">
... <TEXT>
... <TITLE>One</TITLE>
... <BODY>Sample One</BODY>
... </TEXT>
... <TEXT>
... <TITLE>Two</TITLE>
... <BODY>Sample Two</BODY>
... </TEXT>"""
>>> soup = BeautifulSoup(s,'html.parser')
>>> soup.find_all('body')
[<body>Sample One</body>, <body>Sample Two</body>]
关于Python:解析 SGML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31694553/
我比较习惯xml文档和工具,但是需要和sgml打交道。我有一个正在使用的 sgml 文档 nsgmls解析,我需要包含一个特定的 sgml 声明。如果我在命令行上指定声明文件,它就可以正常工作: $
我正在尝试在 Python 中解析一些 SGML,如下所示: One Sample One Two Sample Two 在这里,我只是在寻找 中的所有内容
您知道在 Eclipse 中编辑 SGML 文件的插件吗? 最佳答案 目前还没有这样的插件。 关于Eclipse IDE : SGML plugin?,我们在Stack Overflow上找到一个类似
Match this please Don't match this Match this please 像这样的表达: //thing[text()='Match this plea
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我想使用 regex 将 SGML 转换为 XML。喜欢: 转换: 111222 至: 111222 我编写了以下代码来进行转换: String a = "abcabc2"; a = a.replac
我是 Python 的新手。我有以下代码: class ExtractTitle(sgmllib.SGMLParser): def __init__(self, verbose=0): sgml
是否可以使用 css :before { content:""} 语句输出 SGML 字符? 这不起作用: span:before { content:"√" } 转义好像也不行。 最佳答
发件人:http://www.w3schools.com/tags/tag_doctype.asp The declaration is not an HTML tag; it is an inst
这个问题等同于:“使用 SGML 优于 XML,以及使用 XML 优于 SGML 的优点和缺点是什么?”。 我已经知道 SGML 和 XML 之间的一些相同点和不同点,但他们没有回答这个问题。 相似之
有人知道将 SGML 转换为 XML 的方法或库吗? 编辑:澄清一下,我必须用 Java 进行转换,而且我不能使用 SP 解析器或相关的 SX 工具。 最佳答案 似乎普遍的共识是,在 Java 中没有
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this qu
据我了解,XML 是 SGML 的一个子集,旨在简化它并鼓励更广泛的使用。 我想大多数有用的特性都被引入了 XML,但是 SGML 中是否有任何强大到足以激励使用它而不是 XML 的特性(并接受复杂性
SGML 有许多允许标记最小化的可选特性,例如可选或隐含的开始和结束标记,以及用于更简单的标记别名的 SHORTREF。因此是否有可能编写一个 DTD,一个完美的 SGML 实现,这一直是一个罕见的甚
我有一个带有 SGML 的 Java 字符串,类似这样...... I know you ducky suck and I rocky rock 我如何解析它以获取例如 内的文本以便让“鸭子”出去
我想将 XML 解析器与 SGML 文档一起使用,但这不起作用。阅读了一些建议后,解决这个问题的唯一方法似乎是使用 HTML 解析器。所以我基本上只是想做一个简单的查询,从我的文档中提取故事标题。 (
我正在寻找一个用纯 C 编写的开源 SGML 解析器。这是为了解析真正的 SGML,而不是格式错误的东西。 有什么想法吗? 最佳答案 有 OpenSP,它是 OpenJade 的一部分项目,但在 C+
我使用 PHP4 和 HTML 4.01(使用字符集 ISO-8859-15,即 latin-9)编写了一个留言簿。数据以字符集(ISO-8859-1,即 latin-1)保存在 MySQL 数据库中
当我尝试使用 XDocument 解析以下数据时,出现以下错误: “XMLException:内部标记中不允许参数实体引用” 这是我要解析的示例数据: ]> &questio
我正在尝试从 cpan shell“安装 SGML::Parser::OpenSP”,但在第一次“make test”时失败。如果我进入构建目录并运行 make test,我也会得到同样的错误。 我相
我是一名优秀的程序员,十分优秀!