gpt4 book ai didi

parsing - 从 HTML 文件中获取 jpg 图像

转载 作者:行者123 更新时间:2023-12-03 22:56:27 24 4
gpt4 key购买 nike

我正在尝试使用 grep 获取 HTML 文件中 jpg 图像的完整 url 地址。一个问题是其中没有多少换行符,所以当我使用 grep 时,它会获取路径,但也会获取很多我不感兴趣的其他内容。我如何才能获取 jpg 图像的网址?

最佳答案

一单sed命令

sed -n '/<img/s/.*src="\([^"]*\)".*/\1/p' yourfile.html

或使用 ERE ( extended regular expressions ) 避免 backslashes从上面的表达式:
sed -E -n '/<img/s/.*src="([^"]*)".*/\1/p' yourfile.html

一基本grep命令
grep -o '<img[^>]*src="[^"]*"' yourfile.html

连续两次基本grep命令
grep -o '<img[^>]*src="[^"]*"' yourfile.html | grep -o '"[^"]*"'

一单grep使用 Perl 正则表达式的命令 (每)
grep -Po '<img[^>]*src="\K[^"]*(?=")' yourfile.html

使用 ack作为 grep类似替换
sudo apt install ack
ack -o '<img[^>]*src="\K[^"]*(?=")' yourfile.html

下载网页 s-hunter 提出
curl -s example.com/a.html | sed -En '/<img/s/.*src="([^"]*)".*/\1/p'

关于parsing - 从 HTML 文件中获取 jpg 图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9060099/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com