gpt4 book ai didi

sed - 如何使用 sed/awk 或 cut 从 html 源中提取 URL?

转载 作者:行者123 更新时间:2023-12-02 07:03:05 25 4
gpt4 key购买 nike

我正在编写一个脚本,它将 html 页面源下载为一个文件,然后读取该文件并提取位于特定代码之后的特定 URL。 (它只出现了 1 次)

这是我需要匹配的示例:

<img id="sample-image" class="photo" src="http://xxxx.com/some/ic/pic_1asda963_16x9.jpg"

URL 前面的代码将始终相同,因此我需要提取以下部分:

<img id="sample-image" class="photo" src="

和 URL 后面的 "

我用 sed 试过这样的东西:

sed -n '\<img\ id=\"sample-image\"\ class=\"photo\"\ src=\",\"/p' test.txt

但它不起作用。我会很感激你的建议,非常感谢!

最佳答案

您可以使用 像这样:

grep -oP '<img\s+id="sample-image"\s+class="photo"\s+src="\K[^"]+' test.txt

或使用 :

sed -r 's/<img\s+id="sample-image"\s+class="photo"\s+src="([^"]+)"/\1/' test.txt

或使用 :

awk -F'src="' -F'"' '/<img\s+id="sample-image"/{print $6}' test.txt

关于sed - 如何使用 sed/awk 或 cut 从 html 源中提取 URL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17128167/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com