- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
有没有一种简单的方法可以导出维基百科的翻译标题以获得这样的集合:russian_title -> english_title
?
我试图从
ruwiki-latest-pages-meta-current.xml.bz2 and ruwiki-latest-pages-articles.xml.bz2 ,然而,有少于 25k 的翻译。
我发现有些不存在。例如。可以看到英文维基的链接here ,但是没有链接[[en:Yandex]]
在垃圾场。
也许我应该尝试解析英文维基百科,但我相信有更好的解决方案。
顺便说一句,我正在使用 wikixmlj + 试图找到 en:Yandex
与 grep
.
更新:链接到@svick 的解决方案数据:http://dumps.wikimedia.org/ [语言代码] wiki/latest/
例如http://dumps.wikimedia.org/ruwiki/latest/
最佳答案
各种语言的维基百科文章之间的大部分链接现在位于 Wikidata .所以,如果你想找到源代码,你可以下载维基数据的转储并解析它(它是在 JSON 中)。
但我认为更好的方法是使用 the langlinks
table 的转储.这完全包含您想要的信息,包括来自维基数据的链接和仍处于旧形式的链接。
此转储采用 SQL 格式。您可以将该转储导入 MySQL 数据库,也可以直接解析它(我已经写了 a .Net library that does that )。
该表包含从您的 wiki(在您的情况下是俄罗斯维基百科)的页面 id 到其他 wiki 中的页面标题的映射。这意味着您将需要您感兴趣的页面的页面 ID。对于少量页面,您可以使用 the “Page information” link 手动查找它们。 ,或者您可以使用 API。但是如果你需要大量的页面,你应该下载 page
的转储文件。表,其中包含此映射。
关于wikipedia - 导出维基百科翻译标题的简便方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21000834/
我是一名优秀的程序员,十分优秀!