gpt4 book ai didi

linux - 在不保存实际页面的情况下使用 wget 下载给定域下可访问的所有 Urls?

转载 作者:塔克拉玛干 更新时间:2023-11-02 23:55:59 24 4
gpt4 key购买 nike

尝试确定给定域下的所有有效 url,而无需在本地镜像站点。

人们通常希望下载所有页面,但我只想获取给定域(例如 www.example.com)下的直接 url 列表,类似于

  • www.example.com/page1
  • www.example.com/page2
  • 等等

有没有办法使用 wget 来做到这一点?还是有更好的方法?

最佳答案

好吧,我必须找到自己的答案:

我使用的工具是httrack

httrack -p0 -r2 -d www.example.com
  • -p0 选项告诉它只扫描(不保存页面);
  • -rx 选项告诉它搜索的深度
  • -d 选项告诉它留在同一个主域上

甚至还有一个 -%L 将扫描的 URL 添加到指定的文件,但它似乎不起作用。但这不是问题,因为在 hts-cache 目录下,您可以找到一个名为 new.txtTSV 文件,其中包含所有访问的 url 和一些关于它的附加信息。我可以使用以下 python 代码从中提取 URL:

with open("hts-cache/new.txt") as f:
t = csv.DictReader(f,delimiter='\t')
for l in t:
print l['URL']

关于linux - 在不保存实际页面的情况下使用 wget 下载给定域下可访问的所有 Urls?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18989435/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com