github - 如何获得所有超过 20 颗星的公共(public) GitHub 存储库的列表？-6ren

github - 如何获得所有超过 20 颗星的公共(public) GitHub 存储库的列表？

转载作者：行者123 更新时间：2023-12-01 03:08:29

25

4

我想获得一个包含超过一定星数(比如 15 或 20)的所有公共(public) GitHub 存储库的列表。我可以使用 GitHub GraphQL API 来获取超过 15 颗星的存储库列表:

query {
  search(query: "is:public stars:>15", type: REPOSITORY, first:10) {
    repositoryCount
    edges {
      node {
        ... on Repository {
          nameWithOwner
          stargazers {
            totalCount
          }
        }
      }
    }
  }
}

结果如下所示:

{
  "data": {
    "search": {
      "repositoryCount": 704279,
      "edges": [
        { "node": { "nameWithOwner": "freeCodeCamp/freeCodeCamp", "stargazers": { "totalCount": 308427 } } },
        { "node": { "nameWithOwner": "996icu/996.ICU", "stargazers": { "totalCount": 249062 } } },
        { "node": { "nameWithOwner": "vuejs/vue", "stargazers": { "totalCount": 156364 } } },
        { "node": { "nameWithOwner": "facebook/react", "stargazers": { "totalCount": 143121 } } },
        { "node": { "nameWithOwner": "tensorflow/tensorflow", "stargazers": { "totalCount": 140562 } } },
        { "node": { "nameWithOwner": "twbs/bootstrap", "stargazers": { "totalCount": 138369 } } },
        { "node": { "nameWithOwner": "EbookFoundation/free-programming-books", "stargazers": { "totalCount": 136421 } } },
        { "node": { "nameWithOwner": "sindresorhus/awesome", "stargazers": { "totalCount": 125160 } } },
        { "node": { "nameWithOwner": "getify/You-Dont-Know-JS", "stargazers": { "totalCount": 115851 } } },
        { "node": { "nameWithOwner": "ohmyzsh/ohmyzsh", "stargazers": { "totalCount": 102749 } } }
      ]
    }
  }
}

有 704,279 个存储库，但我最多可以请求 100 个存储库/查询，并使用游标逐步查看结果。因此，如果有足够的时间，这似乎会奏效。但不幸的是，GitHub GraphQL API limits you to the first 1,000 results任何查询，所以这不会做。

我可以使用星号范围( stars:1000..1500 )运行多个查询，但是一旦你以更少的星力获得 repo (有超过 1,000 个带有 exactly 123 stars 的 repo )，这就会崩溃。

我可以通过更多方式分解查询(例如，按创建 repo 的日期)，但这开始变得疯狂。有没有更简单的方法来获取 15 星或更多星的公共(public) GitHub 存储库的完整列表？

最佳答案

按创建日期和星级范围进行拆分(问题中提到的“疯狂”解决方案)在实践中效果很好。

您可以使用这样的 GraphQL 查询来获取在给定日期范围内创建的具有 15-20 星的 repos 计数:

query {
  search(query: "is:public stars:15..20 created:2016-01-01..2016-01-09", type: REPOSITORY, first: 1) {
    repositoryCount
  }
}

回复:

{ "data": { "search": { "repositoryCount": 534 } } }

对于给定的星级范围(例如 15–20)，您从一个较长的日期范围(例如 2007–2020)开始并获取结果计数。如果超过 1,000，则将日期范围一分为二，并分别获取结果计数。继续递归拆分，直到每个星级范围/日期间隔低于 1,000 个结果。

这是执行此操作的代码:

def split_interval(a, b):
    d = int((b - a) / 2)
    return [(a, a + d), (a + d + 1, b)]

def split_by_days(stars, day_start, day_end):
    start_fmt = day_start.strftime('%Y-%m-%d')
    end_fmt = day_end.strftime('%Y-%m-%d')
    q = f'stars:{stars} created:{start_fmt}..{end_fmt}')
    c = get_count(q)
    if c <= 1000:
        query_repos(q, out_file)
    else:
        days = (day_end - day_start).days
        if days == 0:
            raise ValueError(f'Can\'t split any more: {stars} / {day_start} .. {day_end}')
        for a, b in split_interval(0, days):
            dt_a = day_start + timedelta(days=a)
            dt_b = day_start + timedelta(days=b)
            split_by_days(stars, dt_a, dt_b)

ranges = [
    (15, 20), (21, 25), (26, 30),
    # ...
    (1001, 1500), (1501, 5000), (5001, 1_000_000)
]
for a, b in ranges:
    stars = f'{a}..{b}'
    split_by_days(stars, datetime(2007, 1, 1), datetime(2020, 2, 2))

最好从低星级范围向上爬，因为在爬取过程中，repos 更有可能获得星级而不是失去它们。

对我来说，这最终需要 1,102 次不同的搜索。这是 CSV file (~50MB) 使用这种方法收集了所有在 2020 年 2 月 3 日获得超过 15 颗星的存储库。见 this blog post和 accompanying source code更多细节。

关于github - 如何获得所有超过 20 颗星的公共(public) GitHub 存储库的列表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60022429/

25

4

0

文章推荐： javascript - JQuery UI slider 在 0 时不起作用？

文章推荐： python - 如何解析 JSON 文件中的特定键和值？

文章推荐： javascript - 使用jquery在表中自动计算

jackrabbit - 将数据从一个 jackrabbit 存储库(Magnolia 存储库)传输/迁移到另一个 jackrabbit 存储库
任何人都知道如何将内容从一个 Magnolia CMS 存储库(Jackrabbit 存储库)传输/迁移到我们的应用程序使用的另一个自定义 jacrabbit 存储库？最佳答案正如另一张海报所建议
git - 直接写入远程 Git 存储库，而不将对象添加到本地索引/存储库？
Git 是否支持任何允许我直接从本地/工作树提交到远程存储库的命令？正常的工作流程至少需要一个“git add”来用文件内容的副本等填充对象数据库。我知道这不是正常的、预期的 Git 工作流程。但我
git - 防止从过时的 Git 存储库 pull/推并重定向到新的 Git 存储库
我们正在将 Git 存储库移动到新服务器。迁移后我们显然可以只删除旧的存储库，所以当人们尝试推送或 pull 时他们会得到一个错误并在 wiki 上查找新的存储库 URL，但是是否有可能阻止 pull
git - 将两个独立的 SVN 存储库 merge 为一个 Git 存储库
我们有两个 Subversion 存储库，每个存储库都有一个项目。所以: svn://server/svn/project_a svn://server/svn/project_b 它们是独立的项目，
eclipse - 合并/聚合 eclipse p2 存储库/可扩展的 p2 存储库
使用 maven/tycho 构建 Nodeclipse Eclipse 插件每个版本都有新的 p2 存储库。发布是在 Bintray 上完成的不允许更新文件。所以每个版本都在它的文件夹中。 Bas
mercurial - 如何将 mercurial 存储库(包括历史记录)作为子目录导入另一个 mercurial 存储库，而不使用子存储库？
这听起来有点复杂，让我解释一下: Project_A 在它自己的 Mercurial 存储库中已经存在了一段时间。 Project_A 现在被 merge 到一个新的 super 项目 Super-P
mercurial - 如何将一个 Mercurial 存储库(包括历史记录)作为子目录导入另一个 Mercurial 存储库，而不使用子存储库？
这听起来有点复杂，所以让我解释一下: Project_A 已在其自己的 Mercurial 存储库中存在了一段时间。 Project_A 现在正在 merge 到一个新的 super 项目 Super
git - 将 Git 存储库 A 移动到具有完整历史记录的 Git 存储库 B(非空)
我想将我的所有文件从 Git Repo A 移动到 Git Repo B 并具有完整的历史记录。 Git B 已经包含另一个项目文件。我尝试了几种方法，例如 How to move files fro
git - 如何 pull 一个原始的 git 存储库，其来源是 github 存储库？
我从 github 中托管的公共(public) git 存储库创建了一个裸存储库 (MY_LOCAL_REP): ~$ git clone --bare github 存储库已更新(创建了一个分支
git - 从 svn 存储库克隆 git 存储库，导致无文件、无远程分支的 git 存储库
工作 SVN 库我正在启动一个 git 存储库来与 svn 存储库进行交互。 svn 存储库已设置并且工作正常，其中包含一个基本 README 文件的单次提交。检查它工作正常: tchalvak:
spring-boot - spring boot 数据 redis 存储库 @Id 注释 vs jpa 存储库 @Id
我正在使用 spring boot 1.5.2 和 spring boot data redis 1.8。我有两个@Id 注解，一个用于JPA，另一个用于redis hash。这里我想使用 JPA
Maven 存储库
我是 maven 的新手。我仍然无法理解它的概念。例如，我正在寻找 com.extjs:gxt:jar:2.2.5 或 org.syslog4j:syslog4j:jar:0.9.46。我在任何 r
存储库、服务层和方法放置
我已经阅读了很多关于存储库模式和服务层的作用的书，我(我认为)很清楚这两者之间的区别。但是现在有一个简单的问题让我挠头了一段时间。我知道数据访问层如何负责...访问数据，因此典型的存储库可能具有插入
git - 如何导入旧设置/存储库
我是 Git/Smartgit 的新手。现在我不得不在 WIN 10 下配置一台新 PC。请问我如何将设置和存储库从旧 PC 导出/导入到新 PC？非常感谢，问候，本德最佳答案 SmartGit
其他存储库中的 Laravel 存储库
所以我最近开始在我的工作项目中使用存储库模式。我一直遇到同样的问题，我似乎无法找到答案: 可以将另一个存储库注入(inject)现有存储库吗？这样做有什么负面影响？例如 : class Crawls
Azure应用程序服务未将Gitlab容器注册表配置选择为私有(private)存储库
我有一个应用程序容器推送到 gitlab 容器注册表。我正在尝试将其作为容器部署到 azure web 应用程序服务中。我根据azure的文档尽我所能地进行了配置。但我不明白我错过了什么，因为 azu
java - 无法通过代理连接到互联网/存储库
我使用java框架来开发crud应用程序。这个框架被称为:“Cuba.Platform”。我的问题是，我无法在古巴打开该项目。当我尝试在那里打开我的项目时，我遇到了这个问题: “存储库包含 http
C# WCF 存储库
我在我的数据层中有几个对数据库执行 CRUD 操作的存储库类。我不确定这种设计，因为大多数表都需要每个存储库一个专用类，一段时间后我最终会为数据库中存在的每个表得到很多存储库。我这样做是因为，当然，我
C# 存储库 - 如何与其他存储库交互
我正在重构一些代码，并将一些执行数据库 CRUD 操作的方法提取到它们自己的存储库类中。我有几个问题，鉴于以下两种类型的对象存储在数据库中:用户和角色我应该创建 IUserRepository 和
c# - 存储库/服务层设计模式的建议
尝试在这里创建一个非常简单的存储库和服务层模式。 (.NET 4、C#、LINQ，尽管这个问题部分与语言无关)。注意:这只是研发。我的目标是尽量减少服务层中方法定义的数量。这是我的存储合约: in

首页

博学

6Ren·AI

商城

github - 如何获得所有超过 20 颗星的公共(public) GitHub 存储库的列表？