gpt4 book ai didi

python - 删除所有 XML 标签,只保留标签之间的文本

转载 作者:太空宇宙 更新时间:2023-11-04 01:30:48 25 4
gpt4 key购买 nike

我有一个 XML(实际上是一个 XML 样式表)。使用 Python,我想从中删除所有标签,只保留标签之间的文本。

最简单的解决方案是什么?我在这里看到了一个类似的问题: How to remove all html tags from downloaded page

但出于某种原因,这在这种情况下似乎不起作用。请注意,我不希望在标签中使用引号分隔文本 - 我真的想删除所有以“<”开头并以“>”结尾的内容。

最佳答案

你可以使用 xml.parsers.expat :

from xml.parsers.expat import ParserCreate

def char_data(data):
if data.strip(): # skip empty text if you want
print data

parser = ParserCreate()
parser.CharacterDataHandler = char_data
parser.Parse(doc,True)

xml.sax :

from xml.sax import make_parser, handler

class extract_text(handler.ContentHandler):
def characters(self,data):
if data.strip():
print data

parser = make_parser()
parser.setContentHandler(extract_text())
parser.feed(doc)

如果它不是格式正确的 XML,您也可以尝试 HTMLParser :

from HTMLParser import HTMLParser

class extract_text(HTMLParser):
def handle_data(self,data):
if data.strip():
print data

parser = extract_text()
parser.feed(doc)

关于python - 删除所有 XML 标签,只保留标签之间的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14010791/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com