作者热门文章
- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我试过 WebSphinx 应用程序。
我意识到如果我将 wikipedia.org 作为起始 URL,它不会进一步抓取。
因此,如何实际抓取整个维基百科?谁能给我一些指导方针?我是否需要专门去查找那些 URL 并放置多个起始 URL?
有人对使用 WebSphinx 的 API 的教程有好的网站建议吗?
最佳答案
如果您的目标是爬取整个维基百科,您可能需要查看可用的数据库转储。参见 http://download.wikimedia.org/ .
关于java - 如何抓取整个维基百科?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2313748/
我是一名优秀的程序员,十分优秀!