gpt4 book ai didi

c# - 任何人都有任何 C# 代码来解析 robots.txt 并根据它评估 URLS

转载 作者:太空狗 更新时间:2023-10-29 21:07:37 26 4
gpt4 key购买 nike

小问题:

有没有人有任何 C# 代码来解析 robots.txt,然后根据它评估 URL,看看它们是否会被排除。

长问题:

我一直在为一个尚未发布到谷歌的新站点创建站点地图。站点地图有两种模式,用户模式(如传统站点地图)和“管理员”模式。

管理模式将显示站点上所有可能的 URLS,包括自定义条目 URLS 或特定外部合作伙伴的 URLS - 例如 example.com/oprah 用于在 Oprah 上看到我们网站的任何人。我想在 Excel 电子表格以外的地方跟踪已发布的链接。

我不得不假设有人可能会在他们的博客或其他地方发布 /oprah 链接。我们实际上不希望这个“迷你奥普拉网站”被编入索引,因为这会导致非奥普拉观众能够找到特别的奥普拉优惠。

所以在创建站点地图的同时,我还添加了要从我们的 robots.txt 文件中排除的 URLS,例如 /oprah

然后(这是真正的问题)我想“如果能够在站点地图上显示文件是否被索引并且对机器人可见,那不是很好吗”。这将非常简单 - 只需解析 robots.txt,然后根据它评估链接。

然而,这是一个“奖励功能”,我当然没有时间去写它(甚至认为它可能没有那么复杂)——所以我想知道是否有人已经编写了任何代码来解析机器人。文本文件?

最佳答案

不想这么说,但只需谷歌“C# robots.txt 解析器”并点击第一个匹配项。这是一个CodeProject article about a simple search engine implemented in C# called "Searcharoo" ,它包含一个类 Searcharoo.Indexer.RobotsTxt,描述为:

  1. Check for, and if present, download and parse the robots.txt file on the site
  2. Provide an interface for the Spider to check each Url against the robots.txt rules

关于c# - 任何人都有任何 C# 代码来解析 robots.txt 并根据它评估 URLS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/633479/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com