作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想下载所有中文维基百科数据(文本+图像),我下载了文章,但我对这些媒体文件感到困惑,而且远程媒体文件非常大,它们是什么?我必须下载它们吗?
来自:http://ftpmirror.your.org/pub/wikimedia/imagedumps/tarballs/fulls/20121104/
zhwiki-20121104-local-media-1.tar 4.1G
zhwiki-20121104-remote-media-1.tar 69.9G
zhwiki-20121104-remote-media-2.tar 71.1G
zhwiki-20121104-remote-media-3.tar 69.3G
zhwiki-20121104-remote-media-4.tar 48.9G
谢谢!
最佳答案
我假设它们是维基共享资源中包含的媒体文件,这是文章中的大部分图像。来自 https://wikitech.wikimedia.org/wiki/Dumps/media :
For each wiki, we dump the image, imagelinks and redirects tables via /backups/imageinfo/wmfgetremoteimages.py. Files are written to /data/xmldatadumps/public/other/imageinfo/ on dataset2.
From the above we then generate the list of all remotely stored (i.e. on commons) media per wiki, using different args to the same script.
对于中文维基百科的所有文件来说,它并不是那么大:-)
关于dump - 所有维基百科图像要下载哪些文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15362373/
我是一名优秀的程序员,十分优秀!