gpt4 book ai didi

linux - UNIX 解析 HTML 页面显示标签内容 - 一行?

转载 作者:太空狗 更新时间:2023-10-29 11:26:40 26 4
gpt4 key购买 nike

我有一个 HTML 文件,我对 <pre> </pre> 中包含的数据感兴趣标签。有没有一种单线可以实现这一目标?

示例文件:

<html>
<title>
Hello There!
</title>
<body>
<pre>
John Working
Kathy Working
Mary Working
Kim N/A
</pre>
</body>
</html>

输出应该是:

John 
Kathy
Mary
Kim

非常感谢你们,谢谢你们!

最佳答案

亲 body 验 twig tools .它具有的功能之一是名为 xml_grep 的东西。您的问题简化为

cat foo.txt | xml_grep --nowrap pre 

pre 是一个 xpath表达。随后是一些简单的文本处理,即使您的 XML 格式不同,这也能正常工作。

忠告——不要使用 sed 和其他基于流的文本处理工具来操作 XML 等结构化数据。使用适当的解析器。

关于linux - UNIX 解析 HTML 页面显示标签内容 - 一行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2898656/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com