gpt4 book ai didi

git - 如何找到过去日期的 100 个最大的 GitHub 存储库?

转载 作者:太空狗 更新时间:2023-10-29 12:46:47 27 4
gpt4 key购买 nike

我正在尝试了解 GitHub 上 100 个最大的存储库的演变。使用 GitHub 搜索功能或 GithubArchive.org,我可以轻松访问截至今天的 100 个最大的存储库(根据贡献者、明星、分支或 LOC 的总数来衡量)。

但是,我想查看历史上给定数据的 100 个最大的存储库(例如,2011 年 4 月 1 日),以便我可以从那时起跟踪它们的增长(或下降)。我如何确定过去某个日期 GitHub 上最大的 100 个存储库(按星级、复刻或 LOC 衡量)?

最佳答案

我认为 GitHub 存档项目可以提供帮助:http://www.githubarchive.org/

它存储来自 GitHub 时间线的所有公共(public)事件,并将它们公开以供处理。这些事件包含有关存储库的信息,因此您应该能够从那里提取数据以适合您的用例。

例如,我刚刚在 BigQuery 控制台 ( https://bigquery.cloud.google.com/?pli=1 ) 中使用了以下查询来找出日期为 2012 年 3 月 15 日的 joyent/node 存储库的 fork 数:

SELECT repository_forks, created_at FROM [publicdata:samples.github_timeline] WHERE (repository_url = "https://github.com/joyent/node") AND (created_at CONTAINS "2012-03-15") LIMIT 1

结果如下:

Row forks   created_at   
1 1579 2012-03-15 07:49:54

很明显,您可以使用 BigQuery API 执行类似的操作(提取所需数据、获取某个日期范围内的数据等)。

这里是一个查询,用于获取给定日期的单个最大存储库(通过 fork ):

SELECT repository_forks, repository_url FROM [publicdata:samples.github_timeline] WHERE (created_at CONTAINS "2012-03-15") ORDER BY repository_forks DESC LIMIT 1

结果:

Row forks   repository_url   
1 6341 https://github.com/octocat/Spoon-Knife

这里是查询在给定日期通过 fork 获取前 100 个存储库:

SELECT MAX(repository_forks) as forks, repository_url FROM [publicdata:samples.github_timeline] WHERE (created_at CONTAINS "2012-03-15") GROUP BY repository_url ORDER BY forks DESC LIMIT 100

结果:

Row forks   repository_url   
1 6341 https://github.com/octocat/Spoon-Knife
2 4452 https://github.com/twitter/bootstrap
3 3647 https://github.com/mxcl/homebrew
4 2888 https://github.com/rails/rails
...

关于git - 如何找到过去日期的 100 个最大的 GitHub 存储库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13745285/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com