gpt4 book ai didi

unix - 使用 wget 从谷歌学者搜索结果中下载所有 pdf 文件

转载 作者:行者123 更新时间:2023-12-04 06:42:30 25 4
gpt4 key购买 nike

我想写一个简单的网络蜘蛛或只是使用 wget从谷歌学者下载pdf结果。这实际上是一种获取论文进行研究的好方法。

我已阅读有关 stackoverflow 的以下页面:

Crawl website using wget and limit total number of crawled links

How do web spiders differ from Wget's spider?

Downloading all PDF files from a website

How to download all files (but not HTML) from a website using wget?

最后一页可能是最鼓舞人心的。我确实尝试使用 wget正如 this 上的建议.

我的谷歌学者搜索结果页是 thus但没有下载任何东西。

鉴于我对 webspider 的理解水平很低,我应该怎么做才能使这成为可能?我确实意识到编写蜘蛛程序可能非常复杂,并且是我可能不想承担的项目。如果可以使用 wget ,那绝对很棒。

最佳答案

wget -e robots=off -H --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" -r -l 1 -nd -A pdf http://scholar.google.com/scholar?q=filetype%3Apdf+liquid+films&btnG=&hl=en&as_sdt=0%2C23

需要注意的几点:
  • 在搜索查询中使用 filetype:pdf
  • 一级递归
  • - 仅接受 pdf 的 pdf
  • -H 跨越主机
  • -e robots=off 并使用 --user-agent 将确保最佳结果。谷歌学术拒绝空白用户代理,pdf 存储库可能禁止机器人。

  • 当然,限制是这只会显示结果的第一页。你可以扩大递归的深度,但这会变得疯狂并且永远持续下去。我建议使用类似 Beautiful Soup 的组合。和 wget 子进程,以便您可以有策略地解析和遍历搜索结果。

    关于unix - 使用 wget 从谷歌学者搜索结果中下载所有 pdf 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12272488/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com