apache-spark - 如何使用 Terraform 部署 EMR Terraform，一个开箱即用的简单工作示例-6ren

apache-spark - 如何使用 Terraform 部署 EMR Terraform，一个开箱即用的简单工作示例

转载作者：行者123 更新时间：2023-12-05 02:02:16

我正在使用地形 v0.14.5并尝试官方Terraform example具有指定的版本控制:

terraform {
  required_providers {
    aws = {
      source = "hashicorp/aws"
      version = "3.25.0"
    }
  }
}

provider "aws" {
  region = var.region
}

在“解决”了几个明显的bug之后

更改:从 allow_all 到 allow_access(安全组的名称)

aws_security_group.allow_access.id

更改:从 allow_all 到 allow_access(安全组的名称)

使 cidr_blocks 成为一个列表

更新emr版本

aws_security_group.allow_access.id

cidr_blocks = [aws_vpc.main.cidr_block]

release_label = "emr-6.2.0"

我设法启动和计划但未能申请

Error: Error waiting for EMR Cluster state to be "WAITING" or "RUNNING": TERMINATING: BOOTSTRAP_FAILURE: Master instance (i-07e34ac1b04ebde01) failed attempting to download bootstrap action 1 file from S3

错误似乎来自:

  bootstrap_action {
    path = "s3://elasticmapreduce/bootstrap-actions/run-if"
    name = "runif"
    args = ["instance.isMaster=true", "echo running on master node"]
  }

所以我下载了文件

aws s3 cp s3://elasticmapreduce/bootstrap-actions/run-if .

并在本地添加:


  bootstrap_action {
    path = "file://${path.module}/run-if"
//    path = "s3://elasticmapreduce/bootstrap-actions/run-if"

    name = "runif"
    args = ["instance.isMaster=true", "echo running on master node"]
  }

这是完整的代码:


terraform {
  required_providers {
    aws = {
      source = "hashicorp/aws"
      version = "3.25.0"
    }
  }
}

provider "aws" {
  region = var.region
}

resource "aws_emr_cluster" "cluster" {
  name          = "emr-test-arn"
  release_label = "emr-6.2.0"
  applications  = ["Spark", "Zeppelin"]

  ec2_attributes {
    subnet_id                         = aws_subnet.main.id
    emr_managed_master_security_group = aws_security_group.allow_access.id
    emr_managed_slave_security_group  = aws_security_group.allow_access.id
    instance_profile                  = aws_iam_instance_profile.emr_profile.arn
  }

  master_instance_group {
    instance_type = "m5.xlarge"
  }

  core_instance_group {
    instance_count = 1
    instance_type  = "m5.xlarge"
  }

  tags = {
    role     = "rolename"
    dns_zone = "env_zone"
    env      = "env"
    name     = "name-env"
  }

  bootstrap_action {
//    path = "s3://elasticmapreduce/bootstrap-actions/run-if"
    path = "file://${path.module}/run-if"
    name = "runif"
    args = ["instance.isMaster=true", "echo running on master node"]
  }

  configurations_json = <<EOF
  [
    {
      "Classification": "hadoop-env",
      "Configurations": [
        {
          "Classification": "export",
          "Properties": {
            "JAVA_HOME": "/usr/lib/jvm/java-1.8.0"
          }
        }
      ],
      "Properties": {}
    },
    {
      "Classification": "spark-env",
      "Configurations": [
        {
          "Classification": "export",
          "Properties": {
            "JAVA_HOME": "/usr/lib/jvm/java-1.8.0"
          }
        }
      ],
      "Properties": {}
    }
  ]
EOF

  service_role = aws_iam_role.iam_emr_service_role.arn
}

resource "aws_security_group" "allow_access" {
  name        = "allow_access"
  description = "Allow inbound traffic"
  vpc_id      = aws_vpc.main.id

  ingress {
    from_port   = 0
    to_port     = 0
    protocol    = "-1"
    cidr_blocks = [aws_vpc.main.cidr_block]
  }

  egress {
    from_port   = 0
    to_port     = 0
    protocol    = "-1"
    cidr_blocks = ["0.0.0.0/0"]
  }

  depends_on = [aws_subnet.main]

  lifecycle {
    ignore_changes = [
      ingress,
      egress,
    ]
  }

  tags = {
    name = "emr_test"
  }
}

resource "aws_vpc" "main" {
  cidr_block           = "168.31.0.0/16"
  enable_dns_hostnames = true

  tags = {
    name = "emr_test"
  }
}

resource "aws_subnet" "main" {
  vpc_id     = aws_vpc.main.id
  cidr_block = "168.31.0.0/20"

  tags = {
    name = "emr_test"
  }
}

resource "aws_internet_gateway" "gw" {
  vpc_id = aws_vpc.main.id
}

resource "aws_route_table" "r" {
  vpc_id = aws_vpc.main.id

  route {
    cidr_block = "0.0.0.0/0"
    gateway_id = aws_internet_gateway.gw.id
  }
}

resource "aws_main_route_table_association" "a" {
  vpc_id         = aws_vpc.main.id
  route_table_id = aws_route_table.r.id
}

###

# IAM Role setups

###

# IAM role for EMR Service
resource "aws_iam_role" "iam_emr_service_role" {
  name = "iam_emr_service_role"

  assume_role_policy = <<EOF
{
  "Version": "2008-10-17",
  "Statement": [
    {
      "Sid": "",
      "Effect": "Allow",
      "Principal": {
        "Service": "elasticmapreduce.amazonaws.com"
      },
      "Action": "sts:AssumeRole"
    }
  ]
}
EOF
}

resource "aws_iam_role_policy" "iam_emr_service_policy" {
  name = "iam_emr_service_policy"
  role = aws_iam_role.iam_emr_service_role.id

  policy = <<EOF
{
    "Version": "2012-10-17",
    "Statement": [{
        "Effect": "Allow",
        "Resource": "*",
        "Action": [
            "ec2:AuthorizeSecurityGroupEgress",
            "ec2:AuthorizeSecurityGroupIngress",
            "ec2:CancelSpotInstanceRequests",
            "ec2:CreateNetworkInterface",
            "ec2:CreateSecurityGroup",
            "ec2:CreateTags",
            "ec2:DeleteNetworkInterface",
            "ec2:DeleteSecurityGroup",
            "ec2:DeleteTags",
            "ec2:DescribeAvailabilityZones",
            "ec2:DescribeAccountAttributes",
            "ec2:DescribeDhcpOptions",
            "ec2:DescribeInstanceStatus",
            "ec2:DescribeInstances",
            "ec2:DescribeKeyPairs",
            "ec2:DescribeNetworkAcls",
            "ec2:DescribeNetworkInterfaces",
            "ec2:DescribePrefixLists",
            "ec2:DescribeRouteTables",
            "ec2:DescribeSecurityGroups",
            "ec2:DescribeSpotInstanceRequests",
            "ec2:DescribeSpotPriceHistory",
            "ec2:DescribeSubnets",
            "ec2:DescribeVpcAttribute",
            "ec2:DescribeVpcEndpoints",
            "ec2:DescribeVpcEndpointServices",
            "ec2:DescribeVpcs",
            "ec2:DetachNetworkInterface",
            "ec2:ModifyImageAttribute",
            "ec2:ModifyInstanceAttribute",
            "ec2:RequestSpotInstances",
            "ec2:RevokeSecurityGroupEgress",
            "ec2:RunInstances",
            "ec2:TerminateInstances",
            "ec2:DeleteVolume",
            "ec2:DescribeVolumeStatus",
            "ec2:DescribeVolumes",
            "ec2:DetachVolume",
            "iam:GetRole",
            "iam:GetRolePolicy",
            "iam:ListInstanceProfiles",
            "iam:ListRolePolicies",
            "iam:PassRole",
            "s3:CreateBucket",
            "s3:Get*",
            "s3:List*",
            "sdb:BatchPutAttributes",
            "sdb:Select",
            "sqs:CreateQueue",
            "sqs:Delete*",
            "sqs:GetQueue*",
            "sqs:PurgeQueue",
            "sqs:ReceiveMessage"
        ]
    }]
}
EOF
}

# IAM Role for EC2 Instance Profile
resource "aws_iam_role" "iam_emr_profile_role" {
  name = "iam_emr_profile_role"

  assume_role_policy = <<EOF
{
  "Version": "2008-10-17",
  "Statement": [
    {
      "Sid": "",
      "Effect": "Allow",
      "Principal": {
        "Service": "ec2.amazonaws.com"
      },
      "Action": "sts:AssumeRole"
    }
  ]
}
EOF
}

resource "aws_iam_instance_profile" "emr_profile" {
  name = "emr_profile"
  role = aws_iam_role.iam_emr_profile_role.name
}

resource "aws_iam_role_policy" "iam_emr_profile_policy" {
  name = "iam_emr_profile_policy"
  role = aws_iam_role.iam_emr_profile_role.id

  policy = <<EOF
{
    "Version": "2012-10-17",
    "Statement": [{
        "Effect": "Allow",
        "Resource": "*",
        "Action": [
            "cloudwatch:*",
            "dynamodb:*",
            "ec2:Describe*",
            "elasticmapreduce:Describe*",
            "elasticmapreduce:ListBootstrapActions",
            "elasticmapreduce:ListClusters",
            "elasticmapreduce:ListInstanceGroups",
            "elasticmapreduce:ListInstances",
            "elasticmapreduce:ListSteps",
            "kinesis:CreateStream",
            "kinesis:DeleteStream",
            "kinesis:DescribeStream",
            "kinesis:GetRecords",
            "kinesis:GetShardIterator",
            "kinesis:MergeShards",
            "kinesis:PutRecord",
            "kinesis:SplitShard",
            "rds:Describe*",
            "s3:*",
            "sdb:*",
            "sns:*",
            "sqs:*"
        ]
    }]
}
EOF
}

谁能推荐一个工作示例或帮助解决 VPC 错误？

最佳答案

原来我有一个新版本的 terraform CLI，即 14.5，它不适用于网络上的大多数示例。因此，对于未入门者(对版本没有特殊知识的人......)，我添加了一个关于如何启动和运行集群的特定“recepie”。

我用了https://github.com/cloudposse/terraform-aws-emr-cluster.git因为它最先出现并被持续维护。请记住，它使用了许多远程模块，尽管它们在 Github 上，但它们具有版本依赖性，维护它们本身就是一个挑战。还要记住，就我而言，这只是一个“Hello World”。

安装 tfswitch。在 Mac 上:

brew install tfswitch

tfswitch 0.13.5

克隆 repo，cd inside 和 init。我使用了这个特定的提交:ed81e4259ae66178e6cbb7dcea75596f1701fe61，所以如果你需要检查它，你可以有一个理智的起点。

git clone https://github.com/cloudposse/terraform-aws-emr-cluster.git
cd /terraform-aws-emr-cluster/examples/complete/
terraform init

这将从 Github 下载源代码

通过复制和编辑文件配置变量:

cp fixtures.us-east-2.tfvars terraform.tfvars

创建一个 secrets 目录并确保路径配置到它

mkdir <path of your choice>secrets

ssh_public_key_path = <path of your choice>secrets

配置 EMR 集群:

terraform plan
terraform apply -auto-approve

这应该会生成一个 EMR 集群。

附言

我想要的只是一个 POC 来测试架构解决方案。过去需要我 20 分钟的事情对于外行来说变得非常复杂和具有挑战性。 DevOps Babylon Tower 和安全性的特殊性似乎损害了基础设施即代码、声明性代码、简单性、干净代码和简单健全性的原则。

关于apache-spark - 如何使用 Terraform 部署 EMR Terraform，一个开箱即用的简单工作示例，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65943872/

文章推荐： java - 我的 java bmi 计算器给出相同的答案

文章推荐： pyarrow - 在 pyarrow 表中删除重复项？

文章推荐： mongoDB白名单IP

emr - 只有主节点和任务节点的 AWS EMR
当我确定源数据在 S3 中并且处理的结果将存储在 S3 中时，是否可以使用主节点和一组任务(从属)节点(没有核心节点)构建 AWS EMR。基本上，问题是“当 EMR 将在 S3 中处理数据时，需要
amazon-emr - 如何正确使用 EMR S3DistCp groupBy？
我正在使用 aws .net sdk 向 EMR 运行 s3distcp 作业，以使用 --groupBy arg 连接文件夹中的所有文件。但是无论我尝试过什么“groupBy”arg，它总是失败，或
amazon-emr - EMR Jupyter Notebook 的访问凭证
我刚刚建立了一个内置 Spark、JupyterHub 等的 EMR 集群。我可以通过 http://master_hostname:9443/hub/login 访问 Jupyter Noteboo
java - Hadoop 永远占领 EMR 和分析 EMR
我正在 S3 上运行一个超过 500 个文档的示例 hadoop 作业，在本地运行时需要 <15 分钟才能完成。然而，当我尝试在 EMR 上运行相同的作业时，需要两个多小时，但仍然没有完成缩减步骤，因
emr - EMR 上 Zeppelin 中的 Presto 解释器
是否可以将 Presto 解释器添加到 AWS EMR 4.3 上的 Zeppelin，如果可以，有人可以发布说明吗？我在 EMR 上运行 Presto-Sandbox 和 Zeppelin-Sand
amazon-emr - 如何在 AWS StepFunctions 中将变量传递给 EMR addStep
AWS Stepfunctions 最近添加了 EMR 集成，这很酷，但我找不到将变量从步骤函数传递到 addstep 参数的方法。例如，我想将“$.dayid”变量传递给“Parameters”>“
shell - Amazon EMR:如何在参数中添加带有嵌入式shell脚本的Amazon EMR MapReduce/Hive/Spark步骤？
例如，我有两个Hive作业，其中一个作业的输出用作第二个作业的参数/变量。我可以在终端上成功运行以下命令，以在EMR集群的主节点上获得结果。 [hadoop@ip-10-6-131-223 ~]$ h
r - 亚马逊 EMR : Using R code in Amazon EMR
我有一个非常初学者的问题。我刚刚阅读了一些有关 Amazon EMR 的文档。在我注册之前，我只是想询问一下如何在其中使用 R。我有一个 R 模块，它调用其他几个模块，然后，在它完成运行之前，将几个
python - 从 EMR Spark 连接到 EMR presto - 连接失败
我在从运行 Spark 的 AWS EMR 集群连接到另一个运行 presto 的 AWS EMR 集群时遇到问题。用 python 编写的代码是: jdbcDF = spark.read \
amazon-emr - Amazon EMR - 端口 9443 上缺少来自 EmrManagedMasterSecurityGroup 的入口规则
我正在努力解决这个问题，但无法弄清楚为什么我有一个要部署在 AWS 私有(private)子网中的 EMR 集群。我检查了文档 here . 根据以上内容，我明白了以下几点: 一个。对于我的 EM
amazon-emr - 无法访问 AWS EMR Ganglia 仪表板 - 403 Forbidden
我有一个 EMR 集群 response = emr_client.run_job_flow( Name="Test dashboards", ReleaseLabel='emr-6.
java - EMR 中的多个输入和多个映射器类(EMR 中是否有类似 Hadoop 上的 MultipleInputs 的东西)
我在使用 hadoop 时使用了 MultipleInputs 。因为我有多个映射器分配给不同的输入。我想知道 EMR 是否也支持它。在hadoop中我是这样操作的。这些是我的不同文件的映射器。在这
python - Jupyter + EMR + Spark - 从本地机器上的 Jupyter notebook 连接到 EMR 集群
我是 PySpark 和 EMR 的新手。我试图通过 Jupyter notebook 访问在 EMR 集群上运行的 Spark，但遇到了错误。我正在使用以下代码生成 SparkSession:
amazon-emr - Presto-Glue-EMR 集成 : presto-cli giving NullPointerException
我正在尝试将我的 Glue 目录连接到 EMR 中的 Presto 和 Hive。在 presto-cli 中运行查询时，我收到 NullPointerException 而相同的查询在 hive-c
python - 使用 --pool-emr-job-flows 时，MRJob 无法在 EMR 上启动新作业
我正在使用 MRJob 在 Amazon 的 EMR 上运行一个迭代的 hadoop 程序。当我不使用“--pool-emr-job-flows”选项时，一切正常(但速度很慢)。当我使用这个选项时，
hadoop - 获取 emr-ddb-hadoop.jar 以连接 DynamoDB 和 EMR Spark
我有一个 DynamoDB 表，我需要连接到 EMR Spark SQL 以在该表上运行查询。我得到了带有发布标签 emr-4.6.0 和 Spark 1.6.1 的 EMR Spark Cluste
Python 和 AWS EMR 步骤 : Using os. 系统运行 chmod 等命令在作为 EMR 步骤运行时不起作用
我的团队在 AWS 中工作，我们有 python 脚本，可以将文件从 S3 存储桶移动到 EC2 实例。我想用我们正在使用的脚本作为序言，它在直接从 ec2 实例运行时有效，并且仅在作为 EMR 步骤
apache-spark - 使用 Airflow dag run 创建 EMR 集群，任务完成后 EMR 将终止
我有 Airflow 作业，它们在 EMR 集群上运行良好。我需要的是，假设我有 4 个 Airflow 作业需要 EMR 集群，假设 20 分钟才能完成任务。为什么我们不能在 DAG 运行时创建一个
hadoop - 在配置 EMR 后，如何将文件从 S3 复制到 Data Pipeline 中的 Amazon EMR？
我正在 AWS 中创建一个数据管道来运行 Pig 任务。但是我的 Pig 任务需要 EMR 中的附加文件。在创建集群之后和运行 pig tasked 之前，我如何告诉 Data Pipeline 将文
amazon-emr - 在 AWS EMR 上设置 Spark Thrift Server 以建立 JBDC/ODBC 连接
如何在 EMR 上设置 Spark Thrift 服务器？我正在尝试使用 Spark Thrift 服务器与 EMR 建立 JDBC/ODBC 连接。例如直线> !connect jdbc:hive

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

apache-spark - 如何使用 Terraform 部署 EMR Terraform，一个开箱即用的简单工作示例