gpt4 book ai didi

linux - 使用 Linux Centos 一次保存多个 URL

转载 作者:太空宇宙 更新时间:2023-11-04 11:05:05 24 4
gpt4 key购买 nike

所以我在一个 txt 文件中有一个大约 1000 个 url 的列表,每行一个,我希望将每个页面的内容保存到一个文件中,我该如何自动化这个?"

最佳答案

您可以使用带有 -i 选项的 wget 让它下载 URL 列表。假设您的 URL 存储在名为 urls.txt 的文件中:

wget -i urls.txt

这里的问题可能是多个网站的文件名可能相同(例如 index.html),因此 wget 会附加一个数字,这使得它变得困难/无法仅通过查看文件名将文件连接到原始 URL。
解决方案是使用这样的循环:

while read -r line
do
wget "$line" -O <...>
done < urls.txt

您可以使用 -O 选项指定自定义文件名。

或者您可以从您正在处理的 url“构建”文件名。

while read -r line
do
fname=$(echo "$line" | sed -e 's~http[s]*://~~g' -e 's~[^A-Za-z0-9]~-~g')
fname=${fname}.html
wget "$line" -O "$fname"
done < urls.txt

关于linux - 使用 Linux Centos 一次保存多个 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25592577/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com