gpt4 book ai didi

linux - 如何从多个网页下载文本到文件?

转载 作者:塔克拉玛干 更新时间:2023-11-03 00:38:42 27 4
gpt4 key购买 nike

我正在尝试下载波兰语词典。不幸的是,existing files包含所有变形(不确定正确的英文单词是什么)。我发现命令

lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page=1 > file.txt

可以下载单个词典网页。然后我将不得不以某种方式只从文本 block 中提取字典条目,但至少这是一个开始。

不幸的是,我是一个 linux 菜鸟,不知道如何遍历所有 3067 个页面。

最佳答案

未经测试,但您应该能够使用 GNU Parallel

快速轻松地完成此操作
parallel -qk 'lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page={}' ::: {1..3067} > file.txt

如果不起作用,请尝试删除单引号。如果这不起作用,请尝试在 & 之前放置一个反斜杠。抱歉,暂时没有办法测试。

慢的方法是:

for ((i=1;i<3068;i++)) ; do
lynx --dump ...page=$i
done > file.txt

关于linux - 如何从多个网页下载文本到文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45359549/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com