gpt4 book ai didi

bash - 从html中提取某些扩展链接

转载 作者:行者123 更新时间:2023-11-29 09:18:20 25 4
gpt4 key购买 nike

我有一个包含许多链接的 HTML 文件。我需要提取所有 mp4从页面链接并使用 sed/awk/grep 将链接保存到另一个文件。
该页面可在 page.html 离线使用。 .

示例:页面包含:

<a title="Download this file..." target="_blank" href="http://webaddress.domain.org/videos/sometext/file_name_12.mp4">

所以输出文件应该有:

http://webaddress.domain.org/videos/sometext/file_name_12.mp4

同样,该页面可能包含多个 mp4 链接。

最佳答案

您可以尝试使用 grepPCRE 选项进行先行断言和后断言:

grep -oP '(?<=href=")[^"]+.mp4(?=")' file

测试:

$ cat file
<a title="Download this file..." target="_blank" href="http://webaddress.domain.org/videos/sometext/file_name_12.mp4">

$ grep -oP '(?<=href=")[^"]+.mp4(?=")' file
http://webaddress.domain.org/videos/sometext/file_name_12.mp4

关于bash - 从html中提取某些扩展链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22438800/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com