gpt4 book ai didi

dump - 所有维基百科图像要下载哪些文件

转载 作者:行者123 更新时间:2023-12-02 22:34:35 25 4
gpt4 key购买 nike

我想下载所有中文维基百科数据(文本+图像),我下载了文章,但我对这些媒体文件感到困惑,而且远程媒体文件非常大,它们是什么?我必须下载它们吗?

来自:http://ftpmirror.your.org/pub/wikimedia/imagedumps/tarballs/fulls/20121104/

zhwiki-20121104-local-media-1.tar   4.1G
zhwiki-20121104-remote-media-1.tar 69.9G
zhwiki-20121104-remote-media-2.tar 71.1G
zhwiki-20121104-remote-media-3.tar 69.3G
zhwiki-20121104-remote-media-4.tar 48.9G

谢谢!

最佳答案

我假设它们是维基共享资源中包含的媒体文件,这是文章中的大部分图像。来自 https://wikitech.wikimedia.org/wiki/Dumps/media :

For each wiki, we dump the image, imagelinks and redirects tables via /backups/imageinfo/wmfgetremoteimages.py. Files are written to /data/xmldatadumps/public/other/imageinfo/ on dataset2.

From the above we then generate the list of all remotely stored (i.e. on commons) media per wiki, using different args to the same script.

对于中文维基百科的所有文件来说,它并不是那么大:-)

关于dump - 所有维基百科图像要下载哪些文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15362373/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com