gpt4 book ai didi

wikipedia - 如何建立维基百科类别层次结构?

转载 作者:行者123 更新时间:2023-12-04 15:22:05 35 4
gpt4 key购买 nike

我正在尝试构建维基百科文章及其类别的树形图。我需要做什么?

从这个站点(http://dumps.wikimedia.org/enwiki/latest/),我下载了:

  • enwiki-latest-page.sql.gz
  • enwiki-latest-categorylinks.sql.gz
  • enwiki-20141106-category.sql.gz

  • 我尝试按照此处的答案( Wikipedia Category Hierarchy from dumps ),但 categorylinks 似乎没有相同的架构(没有 pageId 列)。

    建立层次结构的正确方法是什么?

    额外问题:我如何判断 enwiki-latest-page.sql.gz 中的 35M 页面中哪些是文章(根据维基百科的统计,大约 5M)

    谢谢

    最佳答案

    我在日本维基百科遇到了同样的问题。

    我解决了这个问题如下:

  • 获取类别、类别链接、页面的 sql 并导入到我的 mysql 服务器。
  • 运行以下命令。您可以获得“学问”的子类别。

  • MariaDB [wikipedia]> select page.page_title from categorylinks join page on page.page_id = categorylinks.cl_from join category on categorylinks.cl_to = category.cat_title where categorylinks.cl_type = 'subcat' and category.cat_title like '学问';
    +------------------------------------------------+
    |页标题 |
    +------------------------------------------------+
    |学问の分野 |
    |科学 |
    |学问スタブ |
    |架空の思想·学问|
    |学者 |
    |学术出版 |
    |学术研究 |
    |学术団体 |
    |学生 |
    |学派 |
    |学问の赏 |
    |研究 |
    |高等教育 |
    |知识 |
    |问题 |
    |ルネサンス・yuマニスム |
    +------------------------------------------------+
    16 行一组(0.00 秒)

    关于wikipedia - 如何建立维基百科类别层次结构?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27279649/

    35 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com