gpt4 book ai didi

mediawiki - 如何获取所有Wikipedia文章的标题列表

转载 作者:行者123 更新时间:2023-12-03 11:35:31 26 4
gpt4 key购买 nike

我想获取所有Wikipedia文章的所有标题的列表。我知道有两种可能的方法可以从Wikimedia支持的Wiki获取内容。一种是API,另一种是数据库转储。

我不想下载Wiki转储。首先,它很大,其次,我对查询数据库没有真正的经验。另一方面,API的问题是我无法找出一种仅检索文章标题列表的方法,即使它需要> 4个mio请求,也可能使我无法再进行任何其他请求。

所以我的问题是

  • 是否可以通过API获得维基百科文章的标题?
  • 是否可以将多个请求/查询合并为一个?还是我实际上必须下载Wikipedia转储?
  • 最佳答案

    The allpages API module允许您执行此操作。它的限制(当您设置aplimit=max时)为500,因此要查询所有4.5M文章,您将需要大约9000个请求。

    但是转储是一个更好的选择,因为存在许多不同的转储,包括 all-titles-in-ns0 ,顾名思义,它包含您想要的内容(59 MB的压缩文本)。

    关于mediawiki - 如何获取所有Wikipedia文章的标题列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24474288/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com