gpt4 book ai didi

linux - 使用AWK删除与html标签匹配的字符(不是正则表达式)

转载 作者:太空宇宙 更新时间:2023-11-04 05:57:12 24 4
gpt4 key购买 nike

我想从这个正则表达式中删除带有 awk 的每个 html 标签:/[<.*.>]/如果在任何字段中找到所述正则表达式。我一直在尝试让它与 sub 或 substr 一起使用,但我找不到正确的逻辑。

输入文字:

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation<br/><div style="margin-top:6px">< b>veniam:< /b>< /div> <br/><div style="margin-top:6px">< b>Confort:< /b></div>Comenzi volan; Cruise-control; Servodirectie; <br/>

输出:

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitationveniam: Confort:Comenzi volan; Cruise-control; Servodirectie;

最佳答案

如果您并不是真正解析 HTML,而只是想删除每个 <...> 之间的所有内容在文本文件中配对,然后使用 GNU awk for multi-char RS 就是这样的:

$ awk -v RS='<[^>]+>' -v ORS= '1' file
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitationveniam: Confort:Comenzi volan; Cruise-control; Servodirectie;

关于linux - 使用AWK删除与html标签匹配的字符(不是正则表达式),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39124144/

24 4 0