gpt4 book ai didi

linux - sed - 从字符串中提取特定字符

转载 作者:太空宇宙 更新时间:2023-11-04 09:33:10 24 4
gpt4 key购买 nike

所以我有一些不干净的 HTML:

"<table class="content divbackground"><tr><td class='title'>&nbsp;</td><td class='title'>From</td><td class='title'>To</td></tr><tr><td class='entry'>Monday</td><td class='entry'>09:00</td><td class='entry'>18:00</td></tr><tr><td class='entry'>Tuesday</td><td class='entry'>09:00</td><td class='entry'>18:00</td></tr><tr><td class='entry'>Wednesday</td><td class='entry'>09:00</td><td class='entry'>18:00</td></tr><tr><td class='entry'>Thursday</td><td class='entry'>09:00</td><td class='entry'>20:00</td></tr><tr><td class='entry'>Friday</td><td class='entry'>09:00</td><td class='entry'>20:00</td></tr><tr><td class='entry'>Saturday</td><td class='entry'>09:00</td><td class='entry'>18:00</td></tr><tr><td class='entry'>Sunday</td><td class='entry'>11:00</td><td class='entry'>18:00</td></tr></table></td></td>"

这是一家药店的营业时间(信息发布在公共(public)登记册上)。

现在我可以使用解析器解析 HTML,但我发现这对错误不可靠,我仍然必须提取 <table> 之间的代码。和 </table> .

是否有一些不错的 unix 命令(sed?)可以搜索所有出现的情况:

XX:XX

内部<td></td>标签

X 必须是数字吗?

最佳答案

用正则表达式处理 html 不是好的做法。然而,如果你的输入格式是固定的,你可以试试这个 grep 行:

 grep -oP '<td[^>]*>\K\d\d:\d\d' input

使用您的示例输入,它输出:

09:00
18:00
09:00
18:00
09:00
18:00
09:00
20:00
09:00
20:00
09:00
18:00
11:00
18:00

关于linux - sed - 从字符串中提取特定字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29408172/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com