amazon-web-services - 阻止 API Gateway 接收对 robots.txt 文件的请求-6ren

amazon-web-services - 阻止 API Gateway 接收对 robots.txt 文件的请求

转载作者：行者123 更新时间：2023-12-01 10:30:32

25

4

我一直在开发一个新项目，该项目利用映射到 lambda 函数的 API 网关。 lambda 函数包含一个 Kestrel .NET Web 服务器，该服务器通过 API 网关通过代理接收请求。我已将 API Gateway 重新映射到实际子域以确保某些品牌一致性。一切正常；然而，我最近实现了 Elmah.IO，以便更好地了解在这种不寻常的情况下会出现什么错误。

现在，每天大约一到五次，api 网关 URL 收到无法完成的 robots.txt 文件的请求。我不希望 API 能够完成这个请求，因为 API 不是为了提供静态内容。我的问题是；如何防止提出这些请求？

是什么导致请求 API 网关 URL？是因为它是通过我的主机站点的链接直接检测到的吗？它使用 CORS 访问 API，因此机器人可能将 API 检测为完全独立的域并尝试对其进行爬网。如果是这样，是否有一些配置可以添加到我的 Web API 中以强制对 robots.txt 请求进行设计的文本响应？

最佳答案

是什么导致请求 API 网关 URL？

网络爬虫寻找他们能找到的任何 URL，并希望将所有内容编入索引。如果在任何地方都有对您的 API 网关 URL 的引用，那么 Googlebot 及其 friend 很可能会找到它。他们没有任何理由提前知道域仅用于编程访问，从他们的角度来看，API URL 与其他 URL 一样。

行为良好的网络爬虫会在请求任何其他内容之前请求域的 robots.txt 文件，以查看它们是否应该加载域上的任何其他页面。

如何防止这些请求被提出？

我讨厌告诉人们他们问错了问题，但实际上您希望爬虫提出请求。这就是您可以告诉抓取工具您不希望他们请求的其他页面的方式。 robots.txt 约定的目的是它应该是一种向爬虫传达您的愿望的简单方法。在 Web 的早期，将文本文件放入根文件夹非常容易。随着网络的发展，站点更多地由程序驱动而不是文件驱动，因此约定有点难以处理。但是您无法真正阻止爬虫请求 robots.txt，因为在处理它之前，它们无法知道是否应该访问该主机名上的其他 URL，因此它们总是会尝试请求它。你只需要处理它。

是否有一些配置可以添加到我的 Web API 以强制对 robots.txt 请求进行设计的文本响应？

以下是我为 API 网关创建 robots.txt 的步骤:

创建一个新资源，名称为 robots.txt和路径 robots.txt .请注意，控制台将尝试将路径设为 robots-txt (使用连字符代替)默认情况下，因此您需要确保更改它。

为该资源创建一个新方法，用于 GET。

选择 Mock 的集成类型。

在“集成响应”部分，展开状态 200 部分，展开“ body 映射模板”部分，然后单击 application/json .将内容类型更改为 text/plain ，并将所需的 robots.txt 内容¹ 放入模板框中。单击保存。

Change content type, include robots.txt content, and Save

返回并打开“方法响应”部分。展开状态 200 部分，单击铅笔图标以编辑 application/json响应体类型。将其更改为 text/plain ，然后单击对勾进行保存。

重复步骤 2 到 5，但使用 HEAD 而不是 GET。 (我相信在使用 GET 获取文件之前，可能会有机器人使用 HEAD 检查是否存在。)看起来您需要将相同的 robots.txt 内容放入模板框中，即使实际上不会发送响应对于 HEAD 请求，发送正确的 Content-Length header 。

部署到您的测试阶段，并确保 robots.txt URL 正常工作，并以 text/plain 进行响应。 HEAD 和 GET 的内容类型。

准备好后部署到您的生产阶段。

¹ 我希望大多数 API 系统都希望使用 standard method to exclude all robots :

User-agent: *
Disallow: /

关于amazon-web-services - 阻止 API Gateway 接收对 robots.txt 文件的请求，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43239958/

25

4

0

文章推荐： java - 为什么 JTextArea 没有出现在这段代码中？

文章推荐： union - KDB:时间间隔联合

文章推荐： java - Swing JPanel 布局管理器

文章推荐： java - android-Altbeacons 路径错误

service - start 和 service start 有什么区别
我正在使用 choronos，它建议使用 start/stop 命令开始停止，如下所示开始计时停止计时但是，我正在编写 puppet manifest，它只适用于下面的服务命令。服务计时开始
Services.exe是什么进程？Services.exe病毒吗？Services.exe占CPU情况
来历及作用 services.exe进程程序文件是由微软公司为其发布的Windows操作系统定义的一个系统进程，常见于Windows 2000/XP/Vista/2007等系统中，被描述为服务和控
windows-services - Installutil不会卸载: “The specified service does not exist as an installed service”
我一直在尝试使用installutil:installutil /u GSIS.FileMoverService.exe安装Windows服务。我得到的输出是: Uninstalling assem
service-worker - 在一个域中推荐一个顶级 Service Worker 或多个 Service Worker？
如果一个域有多个团队和多个 Web 应用程序，那么注册 Service Worker 来管理整个站点的最佳建议是什么？具有范围的顶级服务 worker /或子域中的多个服务 worker ？由于一个域
java - org.jboss.msc.service.ServiceNotFoundException : Service service jboss. 找不到 ejb.default-resource-adapter-name-service
我已经在 eclipse 中创建了企业项目。动态web项目和ejb项目对企业项目有借鉴意义。当我运行管理员(企业项目)运行时选择 wildfly 服务器 18。我收到以下错误。谁能告诉我我错过了什么。
service - 类 javax.xml.ws.Service 中的构造函数 Service 无法应用于给定类型
我已经使用 apache-cxf-2.7.4 创建了一个 Web 服务。我进入了我的项目中制作的类(class)。我的项目中的库是: math3-commons-3.2.jar XStream-1.4
windows-services - AppFabric缓存错误:The AppFabric Caching Service service terminated unexpectedly
我在域中的 Virtual Box 中运行集群计算机，默认情况下服务在 Network 服务下运行，服务一直停止，事件日志中出现以下错误。请从下面的错误日志中查找错误详细信息。任何帮助都会很棒。 L
c# - 用于用户表示的 Service Fabric Service 与 Service Fabric Actors
在我的应用程序中，用户可以在 map 上发布事件。应用程序的入口点是一个无状态的 web api 服务。为了在内部代表用户，我想要一个用户服务。我应该何时使用 Reliable Stateful Ac
service - "Service failed to start - Verify that you have sufficient privileges to start system services"
当我尝试运行在WIX中创建的安装程序时，出现以下错误消息: “服务'Report Generator Service'(报告生成器服务)无法启动。请验证您是否具有启动系统服务的足够特权”。我已经在这
amazon-web-services - AWS ECS : Invalid service in ARN (Service: AmazonECS; . ..)
尝试使用 cloudformation 创建 ECS 服务(在 Fargate 上)但出现错误: Invalid service in ARN (Service: AmazonECS; Status
windows-services - 如何以编程方式停止Windows Service？
我正在编写一个简单的Windows服务，该服务每个月向所有员工发送一封电子邮件。我的问题是，完成后如何停止自我？我是该领域的新手，请帮帮我。非常感谢。它将部署在服务器上以每月运行。我没有开始做这件事
service-worker - 从 Service Worker 中获取 Service Worker id 或 date
有谁知道是否有办法在 service worker 中获取此号码或日期: 将我的服务 worker 缓存命名为 cache-1182 会很方便或 cache-20171127171448 我想在安装事
powershell - 启动服务: Failed to start service 'Microsoft Service Fabric Host Service (FabricHostSvc)'
我想开始使用 Azure Service Fabric 技术。我按照this document工作并安装最新的SDK。安装后，我打开 PowerShell(“以管理员身份运行”)命令行窗口并写入这些
ruby-on-rails - PG::UndefinedTable: 错误:关系 "services"不存在 LINE 1: SELECT "services".* FROM "services"
我在使用 whenever gem 时遇到了一些问题。我创建了一个 rake 任务，当我自己启动它时它工作得很好但是当我在日志中收到以下消息时尝试自动执行它: ActiveRecord::Statem
azure-service-fabric - "HTTP Error 503. The service is unavailable"与 Service Fabric 上的 WebListener 共享端口
我想在 service fabric 集群中为两个不同的 web 应用程序(webpi/website)共享 http/80 端口，应用程序必须有 2 个不同的主机名: mywebapi.com 和
java - org.hibernate.service.UnknownServiceException : Unknown service requested [org. hibernate.ogm.service.impl.OgmConfigurationService]
我创建了一个使用 MongoDB 实现 hibernate OGM 的应用程序。它在 Eclipse 中运行得很好，但是，当我构建一个 fat jar 并尝试运行它时，出现以下错误: Exceptio
Python Selenium 异常 AttributeError : "' Service' object has no attribute 'process' "in selenium. webdriver.ie.service.Service
我有一个 Selenium Python 测试套件。它开始运行，但几分钟后抛出以下错误: Exception AttributeError: "'Service' object has no attr
service - Centos 7 - 来自/etc/systemd/system/san.service 的服务未使用 systemctl start san.service 运行
我按照此链接的说明进行操作:https://www.thegeekdiary.com/centos-rhel-7-how-to-make-custom-script-to-run-automatica
web-services - JAVA JAX-WS NullPointerException 在 javax.xml.ws.Service.getPort(Service.java :188)
我在 ubuntu 下的 jboss 上部署了简单的“HelloWorld”Web 服务。我创建了简单的客户端，但我无法让它工作。每次运行客户端时，我都会收到 NullPointerExceptio
service-worker - Service Worker 中未触发定期同步
我正在尝试为我的网站使用后台定期同步。我正在使用 localhost 并在 1*1000 毫秒时注册 periodicsync 事件，但这根本不会触发。我看过这个demo ，但即使我将该网站安装为应

首页

博学

6Ren·AI

商城

amazon-web-services - 阻止 API Gateway 接收对 robots.txt 文件的请求