- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
现在我有一些代码使用 Biopython 和 NCBI 的“Entrez”API 从 Pubmed Central 获取 XML 字符串。我正在尝试使用 ElementTree 解析 XML 以获取页面中的文本。虽然当我从站点本身抓取 lxml 数据时,我有 BeautifulSoup 代码来执行此操作,但我正在切换到 NCBI API,因为抓取工具显然是禁忌。但现在有了来自 NCBI API 的 XML,我发现 ElementTree 非常不直观,并且确实需要一些帮助才能使其正常工作。当然,我看过其他帖子,但其中大多数都涉及 namespace ,就我而言,我只想使用 XML 标签来获取信息。甚至 ElementTree 文档也没有讨论这个(据我所知)。谁能帮我找出在某些标签内而不是在某些命名空间内获取信息的语法?
这是一个例子。注意:我使用Python 3.4
XML 的小片段:
<sec sec-type="materials|methods" id="s5">
<title>Materials and Methods</title>
<sec id="s5a">
<title>Overgo design</title>
<p>In order to screen the saltwater crocodile genomic BAC library described below, four overgo pairs (forward and reverse) were designed (<xref ref-type="table" rid="pone-0114631-t002">Table 2</xref>) using saltwater crocodile sequences of MHC class I and II from previous studies <xref rid="pone.0114631-Jaratlerdsiri1" ref-type="bibr">[40]</xref>, <xref rid="pone.0114631-Jaratlerdsiri3" ref-type="bibr">[42]</xref>. The overgos were designed using OligoSpawn software, with a GC content of 50–60% and 36 bp in length (8-bp overlapping) <xref rid="pone.0114631-Zheng1" ref-type="bibr">[77]</xref>. The specificity of the overgos was checked against vertebrate sequences using the basic local alignment search tool (BLAST; <ext-link ext-link-type="uri" xlink:href="http://www.ncbi.nlm.nih.gov/">http://www.ncbi.nlm.nih.gov/</ext-link>).</p>
<table-wrap id="pone-0114631-t002" orientation="portrait" position="float">
<object-id pub-id-type="doi">10.1371/journal.pone.0114631.t002</object-id>
<label>Table 2</label>
<caption>
<title>Four pairs of forward and reverse overgos used for BAC library screening of MHC-associated BACs.</title>
</caption>
<alternatives>
<graphic id="pone-0114631-t002-2" xlink:href="pone.0114631.t002"/>
<table frame="hsides" rules="groups">
<colgroup span="1">
<col align="left" span="1"/>
<col align="center" span="1"/>
</colgroup>
对于我的项目,我需要“p”标记中的所有文本(不仅仅是 XML 的这个片段,而是整个 XML 字符串)。
现在,我已经知道我可以将整个 XML 字符串放入 ElementTree 对象
>>> import xml.etree.ElementTree as ET
>>> tree = ET.ElementTree(ET.fromstring(xml_string))
>>> root = ET.fromstring(xml_string)
现在,如果我尝试使用这样的标签获取文本:
>>> text = root.find('p')
>>> print("".join(text.itertext()))
或
>>> text = root.get('p').text
我无法提取我想要的文本。据我所知,这是因为我使用标签“p”作为参数而不是命名空间。
虽然我觉得获取 XML 文件中“p”标记中的所有文本对我来说应该非常简单,但我目前无法做到这一点。请让我知道我缺少什么以及如何解决这个问题。谢谢!
--- 编辑 ---
所以现在我知道我应该使用此代码来获取“p”标签中的所有内容:
>>> text = root.find('.//p')
>>> print("".join(text.itertext()))
尽管我正在使用 itertext(),但它只返回第一个“p”标签的内容,而不查看任何其他内容。 itertext() 只在标签内迭代吗?文档似乎表明它也会迭代所有标签,所以我不确定为什么它只返回一行而不是所有“p”标签下的所有文本。
---- 最终编辑 --
我发现 itertext() 只能在一个标签内工作,而 find() 只返回第一项。为了获得我想要的完整文本,我必须使用 findall()
>>> all_text = root.findall('.//p')
>>> for texts in all_text:
print("".join(texts.itertext()))
最佳答案
root.get()
是错误的方法,因为它将检索根标签的属性而不是子标签。root.find()
是正确的,因为它将找到第一个匹配的子标签(或者可以使用 root.findall()
来查找所有匹配的子标签)。
如果您不仅想查找直接子标签,还想查找间接子标签(如您的示例中所示),则 root.find
/root.findall
中的表达式必须为XPath 的子集(请参阅 https://docs.python.org/2/library/xml.etree.elementtree.html#xpath-support )。在您的情况下,它是 './/p'
:
text = root.find('.//p')
print("".join(text.itertext()))
关于python - 使用带有标签的 ElementTree 从 XML 检索文本时遇到问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37554842/
正如标题中所问,我有两个如下结构的 XML 文件 A.xml //here I want to include B.xml
我有一个 xml 文件。根据我的要求,我需要更新空标签,例如我需要更改 to .是否可以像那样更改标签.. 谢谢... 最佳答案 var xmlString=" "; var properStri
我有这样简单的 XML: Song Playing 09:41:18 Frederic Delius Violin Son
在我的工作中,我们有自己的 XML 类来构建 DOM,但我不确定应该如何处理连续的空格? 例如 Hello World 当它被读入 DOM 时,文本节点应该包含 Hello 和 World
我有以下 2 个 xml 文件,我必须通过比较 wd:Task_Name_ID 和 TaskID 的 XML 文件 2。 例如,Main XML File-1 wd:Task_Name_ID 具有以下
我在 Rails 应用程序中有一个 XML View ,需要从另一个文件插入 XML 以进行测试。 我想说“构建器,只需盲目地填充这个字符串,因为它已经是 xml”,但我在文档中看不到这样做的任何内容
我正在重建一些 XML 提要,因此我正在研究何时使用元素以及何时使用带有 XML 的属性。 一些网站说“数据在元素中,元数据在属性中。” 那么,两者有什么区别呢? 让我们以 W3Schools 为例:
在同一个文档中有两个 XML 声明是否是格式正确的 XML? hello 我相信不是,但是我找不到支持我的消息来源。 来自 Extensible Markup Language
我需要在包装器 XML 文档中嵌入任意(语法上有效的)XML 文档。嵌入式文档被视为纯文本,在解析包装文档时不需要可解析。 我知道“CDATA trick”,但如果内部 XML 文档本身包含 CDAT
XML 解析器和 XML 处理器是两个不同的东西吗?他们是两个不同的工作吗? 最佳答案 XML 解析器和 XML 处理器是一样的。它不适用于其他语言。 XML 是通用数据标记语言。解析 XML 文件已
我使用这个 perl 代码从一个文件中读取 XML,然后写入另一个文件(我的完整脚本有添加属性的代码): #!usr/bin/perl -w use strict; use XML::DOM; use
我正在编写一个我了解有限的历史脚本。 对象 A 的类型为 system.xml.xmlelement,我需要将其转换为类型 system.xml.xmldocument 以与对象 B 进行比较(类型
我有以下两个 XML 文件: 文件1 101 102 103 501 502 503
我有以下两个 XML 文件: 文件1 101 102 103 501 502 503
我有一个案例,其中一个 xml 作为输入,另一个 xml 作为输出:我可以选择使用 XSL 和通过 JAXB 进行 Unmarshalling 编码。性能方面,有什么真正的区别吗? 最佳答案 首先,程
我有包含 XML 的 XML,我想使用 JAXB 解析它 qwqweqwezxcasdasd eee 解析器 public static NotificationRequest parse(Strin
xml: mario de2f15d014d40b93578d255e6221fd60 Mario F 23 maria maria
尝试更新 xml 文件数组时出现以下错误。 代码片段: File dir = new File("c:\\XML"); File[] files = dir.listFiles(new Filenam
我怎样才能完成这样的事情: PS /home/nicholas/powershell> PS /home/nicholas/powershell> $date=(Get-Date | ConvertT
我在从 xml 文件中删除节点时遇到一些困难。我发现很多其他人通过各种方式在 powershell 中执行此操作的示例,下面的代码似乎与我见过的许多其他示例相同,但我没有得到所需的行为。 我的目标是将
我是一名优秀的程序员,十分优秀!