java - 将 AWS Lambda 函数放入 VPC，然后 "IOException: Connection reset by peer"开始发生，但只是偶尔发生-6ren

java - 将 AWS Lambda 函数放入 VPC，然后 "IOException: Connection reset by peer"开始发生，但只是偶尔发生

转载作者：行者123 更新时间：2023-12-04 09:01:19

25

4

我有一个通过 API Gateway 用作 API 的 Java AWS Lambda 函数。在过去的几个月里，它一直在 24/7 运行，并且之前没有出现过这个特定的错误。
今天，我做了一个更新以添加 Elasticache，这要求我将 Lambda 与 Elasticache 放在同一个 VPC 中。在此之前，Lambda 没有分配给任何 VPC，只是正常运行。
经过大量的配置调整，我似乎终于让它工作了——Lambda JAR 现在能够连接到 Elasticache，同时仍然可以连接到它需要的其他东西。
但是，在部署几分钟后，我开始从 Algorithmia 调用中收到此错误:

java.util.concurrent.ExecutionException: java.io.IOException: Connection reset by peer
at org.apache.http.concurrent.BasicFuture.getResult(BasicFuture.java:71)
at org.apache.http.concurrent.BasicFuture.get(BasicFuture.java:102)
at com.algorithmia.algo.FutureAlgoResponse.get(FutureAlgoResponse.java:41)
at <place that we invoke it>

发生错误的调用代码非常简单:

        FutureAlgoResponse futureAlgoResponse = algo.pipeAsync(<stuff>);
        AlgoResponse result = futureAlgoResponse.get(3L, TimeUnit.SECONDS);

更重要的是，它已经投入生产将近一年，从未出现过这个错误。
所以我想它一定与VPC有关!但是，它在大多数情况下都有效。我们每隔几秒钟运行一次该代码，并且每隔几分钟就会失败一次。当它失败时，它通常会连续 1-3 个请求失败。
我们的 Lambda 设置为 15 秒超时，失败的请求在约 1 秒后响应，重申一下，直到我们今天将 Lambda 移入 VPC 之前，我们从未见过这个错误。
Lambda VPC 配置感觉相当困惑和复杂，所以我确定我在某个地方搞砸了。但事实上它每隔几分钟只会发生几次，这让我很难用我有限的 AWS 知识进行调试。我希望有人可以分享一些可能的原因!
这是我进行设置的方式:

新建 VPC

在 VPC 中创建 2 个子网(和对应的路由表)，一个公有，一个私有(private)

为 VPC 创建一个 Internet 网关，为公共(public)子网创建一个 NAT 网关。

为 NAT 网关分配弹性 IP。

为安全组启用所有传入和传出(可能不需要传入，但我们会返回并修复它)

在该 VPC 中启动 Elasticache

将 Lambda 分配给该 VPC - 特别是私有(private)子网 + 上述安全组

老实说，我对如何进一步调查这一点毫 headless 绪，所以我真的希望有人知道“哦，是的，VPC 中的连接可能会超时，因为_____”。或者，将不胜感激有关如何更好地调试它的任何提示。
编辑:更多搜索表明它可能与 NAT 设置有关？我基本上只是做了一个默认的“创建 NAT 网关”并将其扔到私有(private)子网上。

最佳答案

亚马逊支持提供诊断和解决方案!
tl; dr 是的，超时是问题所在。建议的解决方法是实现 TCP 保持 Activity 以使 350 秒的空闲超时未达到(或者只是有更多的流量，这对我们来说真的不起作用)。
我们最终所做的只是摆脱了 Elasticache。这是我们需要将 Lambda 放入 VPC 的唯一原因，在考虑之后，我们决定需要一段时间才能使我们的流量达到 Elasticache 的好处对我们真正有形的水平(与简单的 EC2 托管相比) Redis 实例)。所以现在我们的缓存只是一个在 EC2 上运行的常规 Redis 实例。
这是完整的回应:
“<首先讨论我的设置的每个步骤以及这些步骤似乎是正确的>...但是，在过去的两天里，我确实看到了一些 NAT 网关空闲超时，您怀疑这可能是问题所在。请参阅到下面的 NAT 网关指标。
话虽如此，IdleTimeoutCount 指标计算从 Activity 状态转换到空闲状态的连接数。如果 Activity 连接没有正常关闭并且在最后 350 秒内没有 Activity ，则 Activity 连接将转换为空闲。大于零的值表示存在已移动到空闲状态的连接。如果 IdleTimeoutCount 的值增加，则可能表明 NAT 网关后面的客户端正在重新使用过时的连接。
如故障排除文档中所述，为防止连接断开，您可以通过连接启动更多流量。或者，如果可能，您也可以在实例上启用 TCP keepalive，其值小于 350 秒。以固定的时间间隔发送 keepalive 探测将确保有一些流量通过 NAT 网关和远程端服务器之间的连接。 keepalive 数据包将重置 350 秒空闲超时计数器，从而使连接在应用程序需要的时间内保持 Activity 状态。
回答你的问题:“这是怎么回事？”
回答:在从 VPC 的角度验证一切都适合 Lambda 函数(SG、NACL、路由表)之后，这里肯定有 NAT 网关空闲超时的可能性。上面提供的 IdleTimeoutCount 指标也证实了这一点，表明连接由于不活动而超时。”

关于java - 将 AWS Lambda 函数放入 VPC，然后 "IOException: Connection reset by peer"开始发生，但只是偶尔发生，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63553768/

25

4

0

文章推荐： python - 如何在 Python Linux 中使用内存映射文件

aws-sdk - AWS SDK 与 AWS CLI - AWS 云形成 - Terraform
对于在 AWS 云中配置基础设施，我们目前使用从 ansible 角色调用的云形成模板，但我们发现在增加基础设施的规模后，此代码在 GitHub 中变得非结构化或未模块化 Github上有意大利面条式
aws-cloudformation - AWS Cloudformation 创建 AWS Cloudwatch 事件以触发 AWS Batch
我一直在阅读documentation for AWS Cloudwatch events至trigger AWS Batch我不知道如何从 cloudwatch 事件触发 aws 批处理: 在 aw
AWS EKS aws-load-balancer-controller(AWS EKS AWS-负载平衡器控制器)
我正在尝试使用入口控制器安装我的CA证书。我正在遵循这份指南。Https://docs.aws.amazon.com/eks/latest/userguide/aws-load-balancer-co
aws-cloudformation - 如何使用 aws cloudformation 或 aws cdk 设置 aws aurora mysql 表？
如何使用 aws cloudformation 或 aws cdk 设置 aws aurora mysql 表？在我的设置中，我有一个使用 lambda 实现各种微服务的无服务器应用程序。数据库是无
typescript - aws-cdk-lib vs @aws-cdk/core, @aws-cdk/aws-iam, ... 的目的是什么？
我看到了各种使用 AWS CDK 的示例，其中一些使用 aws-cdk-lib，另一些使用 @aws-cdk/core。这些之间有什么区别，什么时候应该使用一个或另一个？最佳答案 aws-cdk-l
typescript - aws-cdk-lib vs @aws-cdk/core, @aws-cdk/aws-iam, ... 的目的是什么？
我看到了各种使用 AWS CDK 的示例，其中一些使用 aws-cdk-lib，另一些使用 @aws-cdk/core。这些之间有什么区别，什么时候应该使用一个或另一个？最佳答案 aws-cdk-l
aws-lambda - AWS Lambda 是否支持 aws-sdk v3？
我在 cdk 研讨会上建立了一个小的 lambda 函数 here .我正在用 typescript 编写 lambda 函数，通过管道进行部署，该管道创建了一个包含 lambda 函数的云形成堆栈。
aws-lambda - 如何在 AWS lambda 中使用 AWS KMS
我刚刚开始使用 AWS 服务，尤其是 AWS Lambda。有没有办法从 Lambda 代码 (Java) 中使用 AWS KMS 服务。我想使用 KMS 来解密加密的外化(从属性读取) secret
aws-cloudformation - AWS CloudFormation - AWS::ElasticLoadBalancingV2::LoadBalancer - 安全组
CFN 模板是否可以根据参数向 ALB 添加一些特定的安全组？我遇到了两个安全组添加到 ALB 的情况: ALB Type: AWS::ElasticLoadBalancingV2::LoadB
security - 一个 AWS 账户上的 AWS 安全组可以引用另一个 AWS 账户上的安全组吗？
例如，我有一个主要公司 AWS 账户，其安全组为 xxxxx。现在我有了我的个人 aws 安全组-yyyyy。这些帐户根本不相关。我可以将接受组-yyyyy 添加到组-xxxxx 中，从而允许我的
aws-lambda - AWS Lambda 的 AWS MSK 触发器 - 同一执行上下文中的多个主题
我有一个 Lambda 函数，它有多个 MSK 触发器配置 - 每个都针对不同的主题。如果 Lambda 的输入 ( MSKEvent ) 可以包含多个不同的主题，则未在官方文档中找到任何信息。官
aws-glue - 来自 AWS secret 管理器的 AWS Glue 连接
在 AWS Glue 中创建 JDBC 连接时，有什么方法可以从 AWS secret manager 获取密码而不是手动硬编码吗？最佳答案我必须在我当前的项目中这样做才能连接到 Cassandr
aws-appsync - : aws-sdk/clients/appsync and aws-appsync?有什么区别
谁能告诉我: aws-sdk/clients/appsync , 和 aws-appsync 根据文档，aws-sdk/clients/appsync使用是因为只包括 aws-sdk当我们只需要 ap
aws-amplify - 如何将现有的 AWS Amplify 后端导入本地的空 AWS Amplify 项目？
我不小心删除了我的放大前端并创建了一个新前端。如何将现有的放大后端导入新创建的放大应用项目文件夹？我按照后端标签上的步骤操作 amplify init --appId(“您的新AMPLIFY APP
aws-glue - 如何使用 AWS java SDK 使用 AWS 胶水作业自动生成脚本
我正在使用 Java Sdk 创建粘合作业。它只有两个必需的参数 Command 和 Glue 版本。但我需要使用自动脚本生成来创建工作。正如我们可以从控制台做的那样，我们添加数据源、AWS Glu
aws-lambda - 有没有办法在 AWS Glue 作业结束时触发 AWS Lambda 函数？
目前我正在使用 AWS Glue 作业将数据加载到 RedShift，但在加载之后我需要运行一些可能使用 AWS Lambda 函数的数据清理任务。有没有办法在 Glue 作业结束时触发 Lambda
aws-lambda - AWS lambda 和 AWS Lambda@EDGE 之间有什么区别？
简单的 aws lambda 和 aws lambda@edge 有什么区别？最佳答案 Lambda 根据某些触发器执行函数。 Lambda 的用例非常广泛，并且与许多 AWS 服务高度集成。您甚至
ruby-on-rails - AWS OpsWorks、AWS Beanstalk 与 AWS CloudFormation？
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 个月前。社区 9
aws-cdk - 无法使用 python 使用 AWS-CDK 创建 AWS 管理的事件目录
我正在尝试使用 Python 使用 AWS-CDK 创建托管广告。以下是错误，从 JavaScriptError(resp.stack) 引发 JSIIError(resp.error)jsii.er
javascript - @aws-cdk/pipelines 和 @aws-cdk/aws-codepipeline 有什么区别？
这两个包似乎在很大程度上做同样的事情？这两个包之间的预期区别是什么，我应该使用哪个包？最佳答案 Pipelines 是较新的 --experimental-- (编辑:它不再在 Experiment

首页

博学

6Ren·AI

商城

java - 将 AWS Lambda 函数放入 VPC，然后 "IOException: Connection reset by peer"开始发生，但只是偶尔发生