gpt4 book ai didi

java - 如何增量爬取github信息并处理信息?

转载 作者:塔克拉玛干 更新时间:2023-11-02 08:45:43 25 4
gpt4 key购买 nike

我正在使用 java 和 GitHub API 在 Windows 7 中抓取 GitHub 信息。

  1. 我想知道我怎么知道一个项目的信息更新了。例如,当一个新的贡献者加入一个项目时,GitHub 可以通知我吗?或者我应该不时地爬取这些信息(就像每个 X小时爬行)。

  2. 你能给我一些关于处理这些数据的建议吗?我的意思是当一个项目的源代码更新时(有一个提交更改了原始代码),我是否应该删除原始代码并将新代码复制到我的计算机并添加有关此操作的条目?

最佳答案

您可以使用 GitHub API Webhooks 获取有关事件的通知。例如。如果您想在新贡献者加入项目时收到通知,您需要为以下事件设置 Webhook:

team_add Any time a team is added or modified on a Repository.

还有一个通配符事件 (*) 将匹配所有事件。 GitHub 提供了一个关于如何设置和使用 Webhooks 的很好的教程。 .

在处理数据方面,我想这取决于你对源代码做了什么。例如,如果您要使用一些静态分析工具扫描代码以查找错误,那么您可以只保留新版本的代码。否则,如果您要对整个提交历史进行一些分析,那么您可以跟踪所有修改和更改。

关于java - 如何增量爬取github信息并处理信息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27698331/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com