amazon-web-services - 如何将 AWS Glue 连接到 VPC 并访问私有(private)资源？-6ren

amazon-web-services - 如何将 AWS Glue 连接到 VPC 并访问私有(private)资源？

转载作者：行者123 更新时间：2023-12-03 16:49:04

25

4

我正在尝试从 AWS Glue 作业连接到在 VPC(私有(private)子网)内运行的服务和数据库。私有(private)资源不应公开(例如，移动到公共(public)子网或设置公共(public)负载均衡器)。

不幸的是，AWS Glue 似乎不支持在用户定义的 VPC 中运行。 AWS 确实提供了名为 Glue Database Connections 的东西当与 Glue SDK 一起使用时，它会在指定的 VPC 内为 Glue/Spark 工作节点神奇地设置弹性网络接口(interface)。然后，网络接口(interface)将流量从 Glue 隧道传输到 VPC 内的特定数据库。但是，这需要特定数据库的位置和凭据，并且不清楚其他流量(例如，对服务的 REST 调用)是否以及何时通过 VPC 进行隧道传输。

是否有可靠的方法来设置 Glue -> VPC 连接，该连接将通过 VPC 隧道传输所有流量？

最佳答案

您可以使用 NETWORK 创建数据库连接。连接类型并在您的 Glue 作业中使用该连接。它将允许您的工作调用 REST API 或您的 VPC 中的任何其他资源。

https://docs.aws.amazon.com/glue/latest/dg/connection-using.html

Network (designates a connection to a data source within an AmazonVirtual Private Cloud environment (Amazon VPC))

https://docs.aws.amazon.com/glue/latest/dg/connection-JDBC-VPC.html

To allow AWS Glue to communicate with its components, specify asecurity group with a self-referencing inbound rule for all TCP ports.By creating a self-referencing rule, you can restrict the source tothe same security group in the VPC and not open it to all networks.

关于amazon-web-services - 如何将 AWS Glue 连接到 VPC 并访问私有(private)资源？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61540873/

25

4

0

文章推荐： python - 使用切片将字符串拆分为单个字符

文章推荐： r - 为什么在函数定义中接受符号字符？

文章推荐： Angular ControlValueAccessor 和 markAsTouched

aws-glue - AWS Glue - 如何查询 LOCATION 的 Glue 目录？
任何人都知道如何(Athena w Glue)返回我知道其表名的表的完整 s3://地址。比如: SELECT location FOR TABLE xyz; 看起来很简单，但我找不到它最佳答案找
aws-glue - 我可以在基于 Python 的 Glue 作业中的 Glue 连接上执行任意 SQL 吗？
在我的 Glue 工作中，我可以访问一个“连接”，它授予访问某种数据库(在我的例子中是 Redshift)的权限。我可以用 glue_context.write_dynamic_frame.from_
aws-glue - AWS Glue Job运行太慢
我们有以下要求: 从1990年到2018年的年度XML文件(大小为15-20 GB) 每周XML文件(大小为3-6 GB)，其中包含更新的XML记录到1990年至2018年的任何年度数据我们需要运行
aws-glue - Aws Glue 目录表保留
来自 aws 文档中的这个 https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-catalog-tables.html ，他们提到了这个 ”
amazon-web-services - 从正在运行的 AWS Glue 作业的上下文中使用 boto3 调用 AWS Glue 客户端 API 时，AWS Glue 作业挂起？
我正在尝试创建一个 Glue 作业，它枚举目录中数据库中的所有表。为此，我使用以下代码片段: session = boto3.Session(region_name='us-east-2') glue
aws-glue - 在 AWS Glue 中读取配置文件
在部署到 AWS Glue 之前，我创建了一个 Glue 开发端点来测试我的代码。下面是项目架构的屏幕截图。 Project layout在 gluelibrary/中有 config.ini 我能够
aws-glue - 是否可以使用一个 AWS Glue 作业将数据写入不同的数据库？
我计划使用 AWS Glue 来完成一项简单的工作，即从 AWS s3 存储桶中提取数据并将其加载到 RDS 数据库中。计划是使用 AWS 向导创建一个 python 脚本，修改最少。问题是我需要将
aws-glue - AWS glue 每次都将完整数据从源复制到目标，即使有书签也是如此
我有一个从 aws glue 控制台中的向导生成的胶水作业。我没有更改生成任务时的默认脚本。它从 posgres 数据库表(源)获取数据并写入另一个 postgres 数据库(目标)。我在ide中选择
aws-glue - AWS Glue Crawler 命名约定
我尝试抓取的 s3 路径中有许多项目(使用根路径 s3://my-bucket/somedata/ ) s3://my-bucket/somedata/20180101/data1/stuff.txt
r - 使用 glue::glue 粘贴会更改 facet 中值的顺序
基于此回复 How to add greek letters to Facet_Grid strip labels? ，我成功地创建了一个在 facet 标签中带有希腊字母的 ggplot。但是胶水
aws-glue - AWS Glue - 启动 ETL 作业并挂起执行
有时，当我想在 AWS Glue 中运行 ETL 作业时，它会立即触发。但是我经常遇到在 ETL 作业执行任何操作之前需要几分钟的时间 - 我在日志中看不到任何内容，只有“待执行”。有什么办法可以影响
aws-cloudformation - 如何使用云形成在 Glue 爬虫中指定 Glue 表和模式
我正在使用 CFT 创建 Glue 数据库、Glue 表和 Glue Crawler，请在下面找到我的代码。在我的 Glue Crawler 中，我想在 Glue Crawler 中指定粘合表“myT
python - 如何使用 AWS Glue Operator 触发 Glue 作业
我的 Airflow 脚本只有一个任务来触发粘合作业。我能够创建 DAG。下面是我的 DAG 代码。 from airflow import DAG from airflow.operators.em
amazon-web-services - 在 Glue 作业中创建 Glue 数据目录表
我有一个我认为非常简单的要求。我想创建一个作业，将一个文件转换为另一个文件，然后更新 Glue 中的数据目录元数据。这将允许另一个作业获取新数据源并使用 Glue/EMR/Athena 使用它。现
aws-glue - 通过 AWS Glue Python 脚本连接到 Postgres
通过 AWS Glue 文档，我看不到任何关于如何通过“Python shell”类型的 Glue 作业连接到 Postgres RDS 的内容。我已经在 AWS Glue 中设置了 RDS 连接并验
aws-glue - 来自 AWS secret 管理器的 AWS Glue 连接
在 AWS Glue 中创建 JDBC 连接时，有什么方法可以从 AWS secret manager 获取密码而不是手动硬编码吗？最佳答案我必须在我当前的项目中这样做才能连接到 Cassandr
aws-glue - 如何在 Python Shell Glue 作业中使用 CloudWatch 自定义日志组？
我有一些“Python Shell”类型的 Glue 作业，我想将作业日志发送到自定义 CloudWatch 日志组而不是默认日志组。通过提供如下作业参数，我能够为“Spark”类型的胶水作业实现这
aws-glue - 使用来自外部 REST API 的数据的 AWS Glue 作业
我正在尝试创建一个工作流，其中 AWS Glue ETL 作业将从外部 REST API 而不是 S3 或任何其他 AWS 内部源提取 JSON 数据。这甚至可能吗？有人做吗？请帮忙! 最佳答案
python - AWS Glue - 如何使用 BOTO3 更改 Glue Catalog 表中的列名？
我正在使用 AWS Glue 爬虫从 S3 zip 文件(无 header )中读取并填充 Glue 目录。列默认命名为:col_0、col_1... 如何使用例如更改这些列名称python bot
AWS Glue: How to write to S3 cross account(AWS Glue：如何写入S3交叉账户)
我的帐户(帐户本地)中有一个Glue作业，我需要将ETL输出写入另一个帐户(帐户远程)。该作业以本地帐户中的IAM角色运行：glue-job-ole。Account-Remote中有一个IAM角色，名

首页

博学

6Ren·AI

商城

amazon-web-services - 如何将 AWS Glue 连接到 VPC 并访问私有(private)资源？