- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我有一个包含损坏的 XML 的文件,行尾有一些我想删除的垃圾字符。这些垃圾字符不允许我使用 Python 的 XML 解析器。示例:
<request><pair><name>q</name><value><![CDATA[LOL]]></value></pair><pair><name>start</name><value>1</value></pair></request>�J I�i�Y�Y��'z�3�u�J�5��}���#Q/k;!�ˑ�9Q){_������ŐF
<request><pair><name>q</name><value><![CDATA[LOL2]]></value></pair><pair><name>start</name><value>1</value></pair></request>4/lIT�l��'�c�Oֲ�{�;��_?��(>͏Y�mP��
如何删除 </request>
之后的乱码?或者换句话说,如何删除 </request>
之间的字符串和 <request>
?
请注意 <request>
至 </request>
只是一行所以
代码:
awk '/<request>/ , /<\/request>/' test.txt
不起作用。
在这种情况下,我的目的是在名称为“q”(LOL 和 LOL2)时提取值。因此,如果这可以轻松完成,我就不会为删除垃圾字符而烦恼。
感谢您的宝贵时间。
最佳答案
您可以使用 lxml 和 xpath 表达式提取数据-
import lxml
from lxml import etree
source_xml = " path to your xml file"
et = etree.parse(source_xml)
value = et.xpath("//document/request/pair[name='q']/value/text()")
print " ".join(value)
我使用您给定的 xml 示例进行了尝试,我的输出是 'LOL LOL2'
关于python - 从 python 中的行/Robust XML解析器中删除垃圾字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8741857/
关闭。这个问题是opinion-based .它目前不接受答案。 想改进这个问题?更新问题,以便 editing this post 提供事实和引用来回答它. 8年前关闭。 Improve this
我正在尝试可靠地提取轮廓的旋转边界框。我想拍摄一张图像,找到最大的轮廓,获取其旋转的边界框,旋转图像以使边界框垂直,然后裁剪到合适的大小。 为了演示,这里是在以下代码中链接的原始图像。我想最终将那只鞋
我想将任何字符串(带单位的数字)转换为 float 。我有一个值列表,例如 myList = ["$800", "0.1mm", "54.6%", "100,000,000", "89.6", "1,
如果我们天真地计算均值: std::vector values; double sum = std::accumulate(begin(values), end(values), 0.0); doub
我的问题是:我得到 NA我应该在计算稳健标准误差时获得一些值。 我正在尝试使用集群稳健标准误差进行固定效应面板回归。为此,我关注 Arai (2011)谁在第3 关注 Stock/ Watson (2
我需要以二进制格式序列化一些数据以提高效率(通常为 10-100MB 文件的数据日志),并且我正在计算格式细节。我想知道实际上我是否需要担心文件损坏/错误更正等。 什么情况下会发生文件损坏?我应该在我
我正在用 C 语言开发 SLAM 算法,并且已经实现了快速角点查找方法,该方法为我提供了图像中的一些强关键点。下一步是以亚像素精度获取关键点的中心,因此我在每个关键点周围提取一个 3x3 面片,并对二
我正在尝试将字符转换为日期。日期具有不同的格式,我希望不必分别对每个日期格式进行编码(并指定哪些格式属于哪些元素,例如通过 grepl)。 这是我的测试数据: test year %% 100, 1
我想在 bash 中传递部分命令,以便: commandpart=( --flags "filename" >/dev/null ) command "${commandpart[@]}" 将评估为:
如何使 findContours 变得稳健,即使由于噪声数据和/或图像中的弱边缘/梯度而导致轮廓可能未闭合,它也能正常工作? 对于第一种情况(未结案),我遇到了以下问题:该算法在像这样的阈值图片上使用
我正在处理来自政府来源(FEC、州选民数据库等)的数据。它的格式不一致,以各种令人愉快的方式破坏了我的 CSV 解析器。 它是外部来源和权威的。我必须解析它,我不能让它重新输入、在输入时验证等等。就是
我正在尝试使用 Selenium Webdriver 自动执行涉及 JavaServer Page 的任务。我构建了一个测试,该测试的成功率约为 90%,这意味着 Webdriver 可以顺利完成所有
我正在尝试编写一个 Makefile,它将在多个平台上编译 C 项目,例如:CentOS、OS X、OpenSUSE。然而,我遇到了一个问题,即外部库的头文件并不总是在同一个地方。我认为这是由于包装,
我正在寻找“Robust Statistics”的 java 包。请注意"Robust"的含义在这里。 我知道 Apache commons 数学 Descriptive statistics和摘要统
我有一个包含损坏的 XML 的文件,行尾有一些我想删除的垃圾字符。这些垃圾字符不允许我使用 Python 的 XML 解析器。示例: qstart1�J I�i�Y�Y��'z�3�u�J�5��}�
我正在寻找一种方法来终止 Windows exe 程序,该程序在从 python 脚本进行测试时会崩溃并向用户显示一个对话框;由于此程序被多次调用,并且可能反复崩溃,因此不适合。 问题对话框是 Win
我正在尝试使用 R 来拟合线性模型并进行预测。我的模型包含一些不在数据框中的常量边参数。这是我正在做的事情的简化版本: dat <- data.frame(x=1:5,y=3*(1:5)) b <-
我正在使用 OLE 通过 Outlook 发送电子邮件。我使用的代码是: procedure SendOutlookMail; const olMailItem = 0; var OKToUs
我从事数据预处理工作,想比较数据标准化、规范化和稳健缩放器的实际优势。 理论上,指南是: 优点: 标准化:缩放特征,使分布以 0 为中心,标准差为 1。 归一化:缩小范围,使范围现在介于 0 和 1
这个问题在这里已经有了答案: Parsing HTML using Python (7 个答案) Parsing HTML in python - lxml or BeautifulSoup? Wh
我是一名优秀的程序员,十分优秀!