git - 机器人/蜘蛛会克隆公共(public) git 存储库吗？-6ren

git - 机器人/蜘蛛会克隆公共(public) git 存储库吗？

转载作者：太空狗更新时间：2023-10-29 13:42:46

25

4

我在 GitHub 上托管了一些公共(public)存储库，这些存储库偶尔会根据流量图接收克隆。虽然我愿意相信很多人都在寻找我的代码并下载它，但其中一些代码的性质让我怀疑这些克隆中的大多数来自机器人或搜索引擎爬虫/蜘蛛。我自己知道，如果我通过搜索引擎找到一个 git 存储库，我通常会用我的浏览器查看代码并在克隆它之前决定它是否有用。

有谁知道克隆 git 存储库是否是搜索引擎爬虫的标准技术，或者我的代码是否比我想象的更受欢迎？

最佳答案

存储库 Github 页面中的“克隆或下载”按钮提供了存储库的 URL。如果您在 Web 浏览器中使用该 URL，您将获得可以在浏览器中看到的 HTML 页面。网络蜘蛛也会收到相同的页面。

但是，如果您将 URL 提供给 Git 客户端，它就能够对存储库文件进行操作(克隆存储库、 pull 、推送)。这是因为 Git 客户端使用了两个 Git's own protocols 之一。建立在 HTTP 之上。

为了使用该协议(protocol)，Git 客户端基于存储库的基本 URL 构建 URL，并在该 URL 上提交 HTTP 请求。

例如，如果 Git URL 是 https://github.com/axiac/code-golf.git，Git 客户端会尝试以下两个请求之一以查找更多信息关于存储库的内部结构:

GET https://github.com/axiac/code-golf.git/info/refs HTTP/1.0

GET https://github.com/axiac/code-golf.git/info/refs?service=git-upload-pack HTTP/1.0

第一个称为“哑”协议(protocol)(Github 不再支持)，第二个称为“智能”协议(protocol)。 “愚蠢”的适用于文本消息，“智能”的适用于二进制字符串 block 和自定义 HTTP header 。

为了在 Git 存储库上运行，Git 客户端必须解析从服务器接收到的响应，并使用该信息创建和提交正确的请求以执行其预期的操作。

浏览器无法在 Git 存储库上运行，因为它不知道协议(protocol)。多用途网络爬虫的工作方式或多或少类似于浏览器。它通常不太关心样式和脚本以及 HTML 的正确性，但对于 HTTP，它与浏览器非常相似。

为了克隆您的存储库，必须对网络爬虫进行专门编程以理解 Git 传输协议(protocol)。或者(更好)它可以在找到它认为是 Git 存储库 URL 的 URL 时运行外部 git clone 命令。在这两种情况下，爬虫程序都必须牢记这一目的:克隆 Git 存储库。

总而言之，网络爬虫(或使用网络浏览器的用户)不可能错误地克隆 Git 存储库。

网络爬虫甚至不需要从 Github 或其他提供 Git 存储库的网络服务器克隆 Git 存储库。它可以通过使用(Github 或其他)网络服务器提供的链接获取存储库中包含的所有文件的每个版本。

关于git - 机器人/蜘蛛会克隆公共(public) git 存储库吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40562982/

25

4

0

文章推荐： git - 在 JGit 中获取最新提交的分支(名称)详细信息

文章推荐： android - 杀死线程中的 Activity

文章推荐： javascript - 仅使用 CSS 更改按钮单击的背景？

文章推荐： git check-ignore 输出为空但仍然被忽略

c# - 如何拥有 "public public"v/s "internal public"？
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: When should [assembly: InternalsVisibleTo()] be used?
microservices - 在微服务架构中，一个针对公共(public)特性的服务应该是公共(public)的还是不公共(public)的
问题与微服务有关，当我有多个微服务提供将被订购和计费的功能/服务时。我正在确定采用哪种方法， a) 每个可计费微服务有一个订单和一个计费服务，有各自的数据库。b) 跨所有微服务的通用订单管理和计费服
clojure - 无法调用非公共(public)类的公共(public)方法: public (Google gcloud library)
我正在尝试使用 gcloud图书馆。 (ns firengine.state (:import [com.google.cloud AuthCredentials] [com.goog
Java 公共(public)类，具有带有非公共(public)参数的公共(public)构造函数。为什么？
Java 允许定义以下一对类。 class Class1 { ... } public Class2 { public Class2(Class1 c1) { ... } } 如果因为 Class1
python - 查找2个文件中的公共(public)行，从文件1写入公共(public)行，从文件2写入非公共(public)行
我正在尝试查找文件 1 和文件 2 中的共同行。如果公共(public)行存在，我想写入文件 2 中的行，否则打印文件 1 中的非公共(public)行。fin1 和 fin2 是这里的文件句柄。它读
java - 无法访问公共(public)类中公共(public)静态类的公共(public)成员(全部在单独的 jar 中)
好吧，这是一个满口的标题。不过，这让我明白了。这是我的代码的要点，在 jar 里: public class NetworkShared { public static class Login
php - 未定义函数 : 7 ERROR: operator does not exist: public. ltree public.< public.ltree[]
我在使用 ltree 时遇到 PHP 问题来自 PostgreSQL .我在 SQL 中这样做: SELECT * FROM tabla t WHERE t.parent_path " for "OP
java - 有没有办法为公共(public)方法的子集生成 Javadoc？例如通过将公共(public)方法注释为 "not part of the public API"
我知道如何为类/接口(interface)/包的子集生成 Javadoc。但是有没有办法只为公共(public)方法的一个子集生成 Javadoc？我更喜欢能够将方法(Javadoc 标记或注释)标
c# - public int i 和 public int i {get; 之间有什么区别？ set;}(自动属性和公共(public)成员有什么区别？)
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicates: c#: why have empty get set properties instead of usin
c# - 声明字符串 public static readonly 与 public const 与 public static const
在我们的每个项目中，都有一个文件用于存储该项目中使用的各种SQL 语句。类的声明方式和字符串的声明方式有一些变化。示例类声明: internal sealed class ClassName int
jquery插件在其他公共(public)函数中调用公共(public)函数
我根据 http://docs.jquery.com/Plugins/Authoring 定义了我的插件 (function( $ ){ var methods = { init : fu
inno-setup - Inno Setup 不会在 C :\Users\Public - will instead do C:\Users\Public\Public Documents 下创建文件夹
我正在使用 Inno Setup 来构建我的安装程序，我有 C:\Users\Public文件夹硬编码在我的 [Files] 中放置一些文件的部分(Inno Setup 没有此文件夹的常量) 我的目标
python - 通过保持一个公共(public)列完整来从两个数据框中删除公共(public)列
我有一个 dataframe1 包含像 'ID', 'A', 'B', 'C', 'D', 'E', 'F', 'G' 这样的列. 现在，我创建了两个数据框， dataframe2 包含 'ID',
java - 在公共(public)抽象方法的所有子类中提取公共(public)实现的最佳方法
我有一个抽象类，不幸的是我无法更改它的定义，它基本上提供了一个抽象方法，有点像。 public abstract void do(Data someData, BaseInterface interf
java - 当公共(public)代码有多个不兼容的返回类型时分解公共(public)代码
我刚刚在重构时偶然发现了一段奇怪的代码。它看起来像是分解出两个 readString() 方法的共同部分的候选者，只是它似乎是不可能的(这对我来说是一个令人毛骨悚然的脑筋急转弯): private f
properties - 如何指定c :\users\public (%PUBLIC%) in WiX?
是否有解析为公用文件夹的属性？显然，我不想在目录结构中对“c:\users\public”进行硬编码，但我找不到预定义的 Property解决这个问题。是否有一种可接受的方式来指定要在此处安装和/或在
java - 如何将值从公共(public)类传递到另一个公共(public)类？
我试图将值从一个类传递到另一个类。 subPanel1 类读取全局变量，但当我通过调整监听器更新这些变量时，它不会更改值。我试图将 rc、gc 和 bc 变量从 subPanel2 类传递到 subP
c# - 将公共(public)属性用于内部和公共(public)使用还是分开使用？
我想使用具有自动属性的干净且编码较少的类。所有属性(property)都是公共(public)的。在同一类的方法中我也使用了该属性。因此，我认为这种方法是可混搭的，因为我将公共(public)属性用于
java - 我可以在Java中的嵌套公共(public)静态抽象类中读取公共(public)静态最终字段吗
不久前，我在 Android 应用程序中创建了一个 SQLiteHelper 类。我不是 100% 确定原因，但表名和列名是嵌套公共(public)静态抽象类中的公共(public)静态最终字段。我记
java - 如何从另一个类中的另一个公共(public)整数调用公共(public)整数？
这个问题已经有答案了: Cannot make a static reference to the non-static method (8 个回答) 已关闭 3 年前。我正在为类(class)做一

首页

博学

6Ren·AI

商城

git - 机器人/蜘蛛会克隆公共(public) git 存储库吗？