gpt4 book ai didi

wikipedia - 导出维基百科翻译标题的简便方法

转载 作者:行者123 更新时间:2023-12-02 03:39:27 28 4
gpt4 key购买 nike

有没有一种简单的方法可以导出维基百科的翻译标题以获得这样的集合:russian_title -> english_title ?

我试图从
ruwiki-latest-pages-meta-current.xml.bz2 and ruwiki-latest-pages-articles.xml.bz2 ,然而,有少于 25k 的翻译。

我发现有些不存在。例如。可以看到英文维基的链接here ,但是没有链接[[en:Yandex]]在垃圾场。

也许我应该尝试解析英文维基百科,但我相信有更好的解决方案。

顺便说一句,我正在使用 wikixmlj + 试图找到 en:Yandexgrep .

更新:链接到@svick 的解决方案数据:http://dumps.wikimedia.org/ [语言代码] wiki/latest/
例如http://dumps.wikimedia.org/ruwiki/latest/

最佳答案

各种语言的维基百科文章之间的大部分链接现在位于 Wikidata .所以,如果你想找到源代码,你可以下载维基数据的转储并解析它(它是在 JSON 中)。

但我认为更好的方法是使用 the langlinks table 的转储.这完全包含您想要的信息,包括来自维基数据的链接和仍处于旧形式的链接。

此转储采用 SQL 格式。您可以将该转储导入 MySQL 数据库,也可以直接解析它(我已经写了 a .Net library that does that )。

该表包含从您的 wiki(在您的情况下是俄罗斯维基百科)的页面 id 到其他 wiki 中的页面标题的映射。这意味着您将需要您感兴趣的页面的页面 ID。对于少量页面,您可以使用 the “Page information” link 手动查找它们。 ,或者您可以使用 API。但是如果你需要大量的页面,你应该下载 page 的转储文件。表,其中包含此映射。

关于wikipedia - 导出维基百科翻译标题的简便方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21000834/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com