python - 从 python 中的行/Robust XML解析器中删除垃圾字符-6ren

python - 从 python 中的行/Robust XML解析器中删除垃圾字符

转载作者：塔克拉玛干更新时间：2023-11-03 01:49:29

25

4

我有一个包含损坏的 XML 的文件，行尾有一些我想删除的垃圾字符。这些垃圾字符不允许我使用 Python 的 XML 解析器。示例:

<request><pair><name>q</name><value><![CDATA[LOL]]></value></pair><pair><name>start</name><value>1</value></pair></request>�J I�i�Y�Y��'z�3�u�J�5��}���#Q/k;!�ˑ�9Q){_������ŐF
<request><pair><name>q</name><value><![CDATA[LOL2]]></value></pair><pair><name>start</name><value>1</value></pair></request>4/lIT�l��'�c�Oֲ�{�;��_?��(>͏Y�mP��

如何删除 </request> 之后的乱码？或者换句话说，如何删除 </request> 之间的字符串和 <request> ？

请注意 <request>至 </request>只是一行所以

代码:

awk '/<request>/ , /<\/request>/' test.txt

不起作用。

在这种情况下，我的目的是在名称为“q”(LOL 和 LOL2)时提取值。因此，如果这可以轻松完成，我就不会为删除垃圾字符而烦恼。

感谢您的宝贵时间。

最佳答案

您可以使用 lxml 和 xpath 表达式提取数据-

import lxml
from lxml import etree
source_xml = " path to your xml file"
et = etree.parse(source_xml)
value = et.xpath("//document/request/pair[name='q']/value/text()")
print " ".join(value)

我使用您给定的 xml 示例进行了尝试，我的输出是 'LOL LOL2'

关于python - 从 python 中的行/Robust XML解析器中删除垃圾字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8741857/

25

4

0

文章推荐： linux - 无法在 Apache2 中创建 .htaccess

文章推荐： c++ - std::basic_string 的使用

文章推荐： c++ - 如何获取给定 HWND 的工具提示文本？

文章推荐： c++ - 是否可以在 gcc 3.3+ 中以旧方式使用 __func__？ (C++)

robustness - 稳健性的最佳实践
关闭。这个问题是opinion-based .它目前不接受答案。想改进这个问题？更新问题，以便 editing this post 提供事实和引用来回答它. 8年前关闭。 Improve this
python - 照片上的 RobuSTLy 裁剪旋转边界框
我正在尝试可靠地提取轮廓的旋转边界框。我想拍摄一张图像，找到最大的轮廓，获取其旋转的边界框，旋转图像以使边界框垂直，然后裁剪到合适的大小。为了演示，这里是在以下代码中链接的原始图像。我想最终将那只鞋
python robuSTLy 将任何带单位的字符串转换为 float
我想将任何字符串(带单位的数字)转换为 float 。我有一个值列表，例如 myList = ["$800", "0.1mm", "54.6%", "100,000,000", "89.6", "1,
c++ - 如何计算均值(平均)robuSTLy？
如果我们天真地计算均值: std::vector values; double sum = std::accumulate(begin(values), end(values), 0.0); doub
r - 面板数据回归 : Robust standard errors
我的问题是:我得到 NA我应该在计算稳健标准误差时获得一些值。我正在尝试使用集群稳健标准误差进行固定效应面板回归。为此，我关注 Arai (2011)谁在第3 关注 Stock/ Watson (2
robustness - 二进制文件格式 : need for error correction?
我需要以二进制格式序列化一些数据以提高效率(通常为 10-100MB 文件的数据日志)，并且我正在计算格式细节。我想知道实际上我是否需要担心文件损坏/错误更正等。什么情况下会发生文件损坏？我应该在我
c - RobuSTLy 以亚像素精度找到图像 block 的局部最大值
我正在用 C 语言开发 SLAM 算法，并且已经实现了快速角点查找方法，该方法为我提供了图像中的一些强关键点。下一步是以亚像素精度获取关键点的中心，因此我在每个关键点周围提取一个 3x3 面片，并对二
regex - RobuSTLy 解析 R 中可变格式的日期
我正在尝试将字符转换为日期。日期具有不同的格式，我希望不必分别对每个日期格式进行编码(并指定哪些格式属于哪些元素，例如通过 grepl)。这是我的测试数据: test year %% 100, 1
arrays - 在 bash robuSTLy 中传递部分命令
我想在 bash 中传递部分命令，以便: commandpart=( --flags "filename" >/dev/null ) command "${commandpart[@]}" 将评估为:
java - OpenCV 找到轮廓 : make it robust
如何使 findContours 变得稳健，即使由于噪声数据和/或图像中的弱边缘/梯度而导致轮廓可能未闭合，它也能正常工作？对于第一种情况(未结案)，我遇到了以下问题:该算法在像这样的阈值图片上使用
ruby - 我如何 robuSTLy 解析格式错误的 CSV？
我正在处理来自政府来源(FEC、州选民数据库等)的数据。它的格式不一致，以各种令人愉快的方式破坏了我的 CSV 解析器。它是外部来源和权威的。我必须解析它，我不能让它重新输入、在输入时验证等等。就是
java - Selenium 测试: Programming a more robust test
我正在尝试使用 Selenium Webdriver 自动执行涉及 JavaServer Page 的任务。我构建了一个测试，该测试的成功率约为 90%，这意味着 Webdriver 可以顺利完成所有
c - 我如何 robuSTLy 包含可能位于不同(未知)目录中的外部头文件？
我正在尝试编写一个 Makefile，它将在多个平台上编译 C 项目，例如:CentOS、OS X、OpenSUSE。然而，我遇到了一个问题，即外部库的头文件并不总是在同一个地方。我认为这是由于包装，
用于 Robust Statistics 的 Java 统计包
我正在寻找“Robust Statistics”的 java 包。请注意"Robust"的含义在这里。我知道 Apache commons 数学 Descriptive statistics和摘要统
python - 从 python 中的行/Robust XML解析器中删除垃圾字符
我有一个包含损坏的 XML 的文件，行尾有一些我想删除的垃圾字符。这些垃圾字符不允许我使用 Python 的 XML 解析器。示例: qstart1�J I�i�Y�Y��'z�3�u�J�5��}�
python - RobuSTLy 杀死 Windows 程序卡住报告 'problems'
我正在寻找一种方法来终止 Windows exe 程序，该程序在从 python 脚本进行测试时会崩溃并向用户显示一个对话框；由于此程序被多次调用，并且可能反复崩溃，因此不适合。问题对话框是 Win
r - 将模型参数传递给 R 的 predict() 函数 robuSTLy
我正在尝试使用 R 来拟合线性模型并进行预测。我的模型包含一些不在数据框中的常量边参数。这是我正在做的事情的简化版本: dat <- data.frame(x=1:5,y=3*(1:5)) b <-
delphi - RobuSTLY 通过 Outlook 和 OLE 发送电子邮件
我正在使用 OLE 通过 Outlook 发送电子邮件。我使用的代码是: procedure SendOutlookMail; const olMailItem = 0; var OKToUs
python - 数据标准化 vs 规范化 vs Robust Scaler
我从事数据预处理工作，想比较数据标准化、规范化和稳健缩放器的实际优势。理论上，指南是: 优点: 标准化:缩放特征，使分布以 0 为中心，标准差为 1。归一化:缩小范围，使范围现在介于 0 和 1
python - 在 Python 中 RobuSTLy 解析 HTML
这个问题在这里已经有了答案: Parsing HTML using Python (7 个答案) Parsing HTML in python - lxml or BeautifulSoup? Wh

首页

博学

6Ren·AI

商城

python - 从 python 中的行/Robust XML解析器中删除垃圾字符