gpt4 book ai didi

java - 如何抓取整个维基百科?

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:38:18 24 4
gpt4 key购买 nike

我试过 WebSphinx 应用程序。

我意识到如果我将 wikipedia.org 作为起始 URL,它不会进一步抓取。

因此,如何实际抓取整个维基百科?谁能给我一些指导方针?我是否需要专门去查找那些 URL 并放置多个起始 URL?

有人对使用 WebSphinx 的 API 的教程有好的网站建议吗?

最佳答案

如果您的目标是爬取整个维基百科,您可能需要查看可用的数据库转储。参见 http://download.wikimedia.org/ .

关于java - 如何抓取整个维基百科?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2313748/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com