gpt4 book ai didi

mediawiki - 转储中的维基百科类别层次结构

转载 作者:行者123 更新时间:2023-12-04 02:02:22 27 4
gpt4 key购买 nike

使用维基百科的转储,我想为其类别建立一个层次结构。我已经下载了主要转储 (enwiki-latest-pages-articles) 和类别 SQL 转储 (enwiki-latest-category)。但是我找不到层次结构信息。

例如,SQL 类别的转储对每个类别都有条目,但我找不到关于它们如何相互关联的任何信息。

另一个转储 (latest-pages-articles) 以无序方式表示每个页面的父类别。它只是说明了所有的 parent 。

我已经看到了 wikiprep 的类别层次结构 (http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/)...那个是如何构建的? Wikiprep 列出了类别 ID,而不是其名称。有没有办法获取每个ID的名称?

最佳答案

MediaWiki 中的类别层次信息存储在 categorylinks table 中。 ,因此您将需要 categorylinks倾倒。

您还需要 page (不是 pages-articles )页面 ID 到标题映射的转储。

关于mediawiki - 转储中的维基百科类别层次结构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17432254/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com