gpt4 book ai didi

wget - 通过wget命令抓取sitemap.xml的链接

转载 作者:行者123 更新时间:2023-12-04 06:20:29 25 4
gpt4 key购买 nike

我尝试抓取sitemap.xml的所有链接以重新缓存网站。但是wget的递归选项不起作用,我只能得到以下响应:

Remote file exists but does not contain any link -- not retrieving.



但是可以肯定,sitemap.xml充满了“http://...”链接。

我尝试了wget的几乎所有选择,但对我没有任何帮助:
wget -r --mirror http://mysite.com/sitemap.xml

有谁知道如何打开网站sitemap.xml内的所有链接?

谢谢,
多米尼克

最佳答案

看来wget无法解析XML。因此,您必须手动提取链接。您可以执行以下操作:

wget --quiet http://www.mysite.com/sitemap.xml --output-document - | egrep -o "https?://[^<]+" | wget -i -

我学会了这个技巧 here

关于wget - 通过wget命令抓取sitemap.xml的链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17334117/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com