gpt4 book ai didi

count - 计算维基百科结果

转载 作者:行者123 更新时间:2023-12-02 04:05:16 25 4
gpt4 key购买 nike

我想获取符合条件的Wikipedia页面数。
例如

  • “房子”-> 1,200页
  • “man”-> 13,000页
  • “大学学院”-> 360页

  • 在许多其他方法中,我可以通过使用Lucene对Wikipedia进行索引来做到这一点,但这非常耗时。

    有没有一种方法可以对 Media Wiki API执行这种查询?

    Wikipedia API的查询限制是多少?

    干杯,
    木兰

    最佳答案

    尝试 list=search 查询。例如:

  • "house"
  • "man"
  • "university college"

  • (由于您说过您只对匹配的页面数感兴趣,因此我在查询中包括 srlimit=1srprop=,以最大程度地减少返回的额外信息。显然,无法阻止API至少返回第一个匹配项的标题,不过; srlimit=0只会显示错误消息。)

    至于查询限制,有 limits on the number of results per query,但是我不认为MediaWiki会对查询API的速率实施任何硬性限制。 MediaWiki确实限制了编辑率,但我认为当前没有任何此类限制适用于搜索。

    我认为建议您按顺序运行查询-也就是说,等待上一个查询完成,然后再发送下一个查询。这提供了一种自动速率限制,因为如果服务器繁忙,查询将需要更长的时间才能完成。如果您想玩的很好,还可以在查询中包括 maxlag parameter(如果失败,最好使用 exponential backoff); maxlag机制实际上是为自动编辑而不是为搜索而设计的,但它至少可以确保您的代码在特别重载时不会进入Wikimedia的服务器。

    另外,如果您想进行许多此类查询,则可能要考虑下载 Wikipedia database dump并自己为其建立索引(如您在问题中所提到的),或者只读取一次并在计算匹配页数时遇到他们。

    关于count - 计算维基百科结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8040040/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com