gpt4 book ai didi

api - 从 Wiki 转储中获取 Interlanguage 链接

转载 作者:行者123 更新时间:2023-12-04 19:24:56 25 4
gpt4 key购买 nike

我试图从维基百科转储中提取中间语言链接。似乎这些链接已移至 WikiData 项目,并且仅通过 API 提供访问权限。

这个分支解释了如何处理这个问题并建议切换到 API:
Retrieving the Interlanguage links from an exported Wikipedia article?

但是,我的研究范围似乎太大而无法使用 Web API(数百万次查询)。有谁知道是否可以从 API 以外的任何地方提取这些链接?解析任何大小的转储比查询 API 更可取。

我使用的维基百科转储:
http://dumps.wikimedia.org/backup-index.html

我使用的 WikiData 转储:
http://dumps.wikimedia.org/wikidatawiki/latest/

最佳答案

用于轻松处理 Wikidata 转储的非常出色的库是 Wikidata Toolkit ,它为您抽象出很多细节。在最新版本0.3有越来越多的示例脚本可以帮助完成像您这样的基本任务。在 examples readme我们找到 SitelinksExample.java :

This program shows how to get information about the site links that are used in Wikidata dumps. The links to Wikimedia projects use keys like "enwiki" for English Wikipedia or "hewikivoyage" for Hebrew WikiVoyage. To find out the meaning of these codes, and to create URLs for the articles on these projects, Wikidata Toolkit includes some simple functions that download and process the site links information for a given project. This example shows how to use this functionality.

关于api - 从 Wiki 转储中获取 Interlanguage 链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24727174/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com