gpt4 book ai didi

wikipedia-api - 如何获取维基百科页面中的所有 URL

转载 作者:行者123 更新时间:2023-12-04 22:22:11 25 4
gpt4 key购买 nike

似乎维基百科 API 对链接的定义与 URL 不同?我正在尝试使用 API 返回特定 wiki 页面中的所有 url。

我一直在玩this query我从 this page 找到的在生成器和重定向下。

最佳答案

我不确定您究竟为什么会感到困惑(如果您对此进行解释会有所帮助),但我很确定该查询不是您想要的。它列出了从页面“标题”( prop=links )链接( generator=links )的页面上的链接( titles=Title )。它还只列出第一页链接上的第一页链接(页面大小默认值为 10)。

如果您想获取页面“标题”上的所有链接:

  • 仅使用 prop=links ,你不想要发电机。
  • 通过添加 pllimit=max 将限制增加到最大可能( pllinks 的“前缀”)
  • 使用 query-continue 中给出的值元素以进入第二页(及后续)结果页。

  • 因此,第一页的查询将是:

    http://en.wikipedia.org/w/api.php?action=query&titles=Title&prop=links&pllimit=max

    第二页(在本例中是最后一页):

    http://en.wikipedia.org/w/api.php?action=query&titles=Title&prop=links&pllimit=max&plcontinue=226160|0|Lieutenant_General

    另一件可能会让您感到困惑的事情是 links仅返回内部链接(到其他维基百科页面)。要获取外部链接,请使用 prop=extlinks .您还可以将两者合并为一个查询:

    http://en.wikipedia.org/w/api.php?action=query&titles=Title&prop=links|extlinks

    关于wikipedia-api - 如何获取维基百科页面中的所有 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14882571/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com