python - 为什么当我将 wholeTextFiles() 与 pyspark 一起使用时 AWS 拒绝我的连接？-6ren

python - 为什么当我将 wholeTextFiles() 与 pyspark 一起使用时 AWS 拒绝我的连接？

转载作者：太空宇宙更新时间：2023-11-03 23:59:21

27

4

我用

sc.wholeTextFiles(",".join(fs), minPartitions=200)

在具有 96cpus 的单个数据处理节点上从 S3 下载 6k XML 文件(每个文件 50MB)。当我有 minPartitions=200 时，AWS 拒绝我的连接，但是当我使用 minPartitions=50 时，一切正常。为什么？

Spark 的一些日志:

(...)
19/05/22 14:11:17 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:17 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:26 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:26 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:28 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:30 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
19/05/22 14:11:30 ERROR org.apache.spark.api.python.PythonRunner: Python worker exited unexpectedly (crashed)
org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/worker.py", line 362, in main
    eval_type = read_int(infile)
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/serializers.py", line 717, in read_int
    raise EOFError
EOFError

    at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.handlePythonException(PythonRunner.scala:452)
    at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRunner.scala:588)
    at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRunner.scala:571)
    at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406)
    at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37)
    at scala.collection.Iterator$GroupedIterator.fill(Iterator.scala:1124)
    at scala.collection.Iterator$GroupedIterator.hasNext(Iterator.scala:1130)
    at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:409)
    at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:125)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:99)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:55)
    at org.apache.spark.scheduler.Task.run(Task.scala:121)
    at org.apache.spark.executor.Executor$TaskRunner$$anonfun$10.apply(Executor.scala:408)
    at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:414)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)
Caused by: java.io.InterruptedIOException: getFileStatus on s3a://uni-swim-firehose/tfms/2019/04/03/10/SWIM-TFMS-2-2019-04-03-10-51-52-0fd9f05a-cbc5-4c1c-aef2-aa275ee3c404.gz: com.amazonaws.SdkClientException: Unable to execute HTTP request: Timeout waiting for connection from pool```

最佳答案

com.amazonaws.SdkClientException:无法执行 HTTP 请求:WAITING来自池的连接超时

wholeTextfiles 根据您拥有的分区数量，每个文件都有与 s3 的单独客户端连接。并且默认为 50。

因此您在 50 个分区中没有打嗝。

如果您尝试增加到 200，则会出现上述异常。

解决方案:

参见亚马逊文档:How do I resolve the error "Timeout waiting for connection from pool" in Amazon EMR?

emrfs-site.xml 配置文件中的

fs.s3.maxConnections。默认为 50。

由于您将 s3a 与 spark 结合使用，您可以尝试低于最大连接数 200，如示例中所示。

python 方式:

def create_spark_session(aws_access_key, aws_secret_key, app_name):
    try:

        spark = SparkSession.builder. \
            config("fs.s3a.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem"). \
            config("fs.s3a.awsAccessKeyId", aws_access_key). \
            config("fs.s3a.awsSecretAccessKey", aws_secret_key). \
            config("fs.s3a.fast.upload", "true"). \
            config("fs.s3a.multipart.size", "1G"). \
            config("fs.s3a.fast.upload.buffer", "disk"). \
            config("fs.s3a.connection.maximum", 200. \
            config("fs.s3a.attempts.maximum", 20). \
            config("fs.s3a.connection.timeout", 30). \
            config("fs.s3a.threads.max", 10). \
            config("fs.s3a.buffer.dir", "hdfs:///user/hadoop/temporary/s3a"). \
            appName(app_name). \
            getOrCreate()

        return spark
    except Exception as e:
        logging.error(e)
        sys.exit(-1)

对于 Scala 用户:

/**
      * example getSparkSessionForS3
      * @return
      */
    def getSparkSessionForS3():SparkSession = {
  val conf = new SparkConf()
    .setAppName("testS3File")
    .set("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
    .set("spark.hadoop.fs.s3a.endpoint", "yourendpoint")
    .set("spark.hadoop.fs.s3a.connection.maximum", "200")
    .set("spark.hadoop.fs.s3a.fast.upload", "true")
    .set("spark.hadoop.fs.s3a.connection.establish.timeout", "500")
    .set("spark.hadoop.fs.s3a.connection.timeout", "5000")
    .set("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version", "2")
    .set("spark.hadoop.com.amazonaws.services.s3.enableV4", "true")
    .set("spark.hadoop.com.amazonaws.services.s3.enforceV4", "true")

  val spark = SparkSession
    .builder()
    .config(conf)
    .getOrCreate()
  spark
}

进一步阅读:

In #2 all these exceptions were discussed

关于python - 为什么当我将 wholeTextFiles() 与 pyspark 一起使用时 AWS 拒绝我的连接？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56259853/

27

4

0

文章推荐： python - 从 numpy 矩阵中获取项目，索引在数组中

文章推荐： node.js - 在 NodeJS 查询字符串和请求模块中传递重音字符

文章推荐： python - 将 Pandas 数据框汇总为半小时

文章推荐： Python正则表达式匹配给定字符串中的多个模式

apache - htaccess "order"拒绝、允许、拒绝
我只想允许一个国家/地区访问，但排除该国家/地区内的代理。这就是我所拥有的(为了方便起见，缩短了版本) order deny,allow deny from all allow from 139.
angular - 拒绝 Angular 2 中的 Promise 时未处理的 Promise 拒绝
这个问题在这里已经有了答案: What is an unhandled promise rejection? (9 个回答) 关闭 4 年前。我目前正在尝试实现我自己的 Promise，以便在 A
git push origin 被 fallthru 拒绝，hook 拒绝 : gitolite
我在使用 Gitolite 推送 git 时遇到问题。当我尝试这个时: git push origin :refs/tags/deployment 我收到这个错误: remote: D NAME/i
php - PDO 连接被 laravel 拒绝，但不被 $con = new PDO() 拒绝
我已经为我的 laravel 5.0-dev 项目配置了 mysql，如下所示: 'mysql' => [ 'driver' => 'mysql', 'host' =>
node.js - 未处理的 promise 拒绝(拒绝 ID : 1): Error: kill ESRCH
我对 Web 和 SOF 进行了一些研究，但发现对于该错误没有任何真正的帮助。我使用 Windows 10 Ubuntu Bash 安装了 Node 和 Puppeteer，但未能使其工作，但我设法
ios - 使用Facebook的iOS应用程序-拒绝
在我的应用审核期间，我收到了以下信息: “17.2:要求用户共享个人信息(例如电子邮件地址和生日)才能正常运行的应用将被拒绝具体来说，您的应用仅使用Facebook登录名进行身份验证，但不包括该网站
EMV 离线批准/拒绝
我正在开发 VeriFone VX 终端的接口(interface)。虽然，这确实是一个普遍的 EMV 问题。我们的处理器的下限为零，因此它将始终在线发送。但是，如果它发生变化，您如何知道(哪些标签)
javascript - 谷歌脚本电子邮件表单接受/拒绝
我编写了一些宏代码，根据表单提交向经理发送电子邮件(用于费用/审批流程)，这是我使用谷歌表单/电子表格的第一个项目，所以也许我可能会错过一些简单的东西，但我为此浏览了 2 个教程，我的代码与重要的部分
c++ - 为什么代码被clang接受而被vc++拒绝？
clang 3.4 接受以下代码；而 vc++ NOV 2013 CTP 拒绝它并出现错误: error C2668: 'AreEqual' : ambiguous call to overloade
nginx 允许|拒绝 $realip_remote_addr
使用 nginx，您可以允许和拒绝范围和 ips (https://www.nginx.com/resources/admin-guide/restricting-access/)。使用realip模
TCP 连接被 FFMPEG 拒绝
官方编辑: 非常感谢您的帮助，但我仍然遇到问题。我的 ffserver.conf 文件是这样的: # Port on which the server is listening. You must
bash - 拒绝 sudo 用户访问特定文件夹
我有一个问题:我是 Ubuntu 系统的根。我想授予用户(比如用户名是 X)执行任何命令的权限，但同时我有一个文件夹，除了我的用户(当然不是 X，因为它是 Admin ) 或根。有什么建议么？谢谢!
Apache 拒绝但允许子位置
我使用 Apache2.2 作为 tomcat 服务器的前端。我想限制对某个位置的访问，但允许对子位置的所有访问，但遇到了一些麻烦。我目前拥有的是: AllowOverride None
ssl - 拒绝 IIS 中的所有客户端证书
就像 this person ，我一直在为浏览器缓存 SSL session 而苦苦挣扎。简而言之，如果选择了客户端证书，则无法以编程方式清除状态，除非在 IE 中使用 document.execCo
AngularJs 网站被 Adsense 拒绝
我的网站是在由 Apache 服务器提供服务的 Angular 上设置的。我通过 View 将内容动态加载到主页上。现在以下是我的问题: 我建立这个网站的主要目的是通过 google adsense
Android:应用程序因后台位置而被 Google 拒绝
我最近遇到了我的应用程序的问题，当它突然被 Google Play 拒绝时因为他们发现我使用的是背景位置 .但实际上我并没有使用这个功能。我只有 ACCESS_COARSE_LOCATION和 ACC
javascript - 无法处理 promise 拒绝
function sendPushNotification(subscription, urlEncodedData){ try { webpush.sendNotification(su
javascript - 即使我确实处理了未处理的 promise 拒绝
我包裹了一个 request-promise-native调用返回 promise 的函数。 import request from 'request-promise-native'; functio
javascript - Meteor 如何调试允许/拒绝
我正在开发我的 meteor 项目，并开始设置我的第一个更复杂的允许/拒绝规则。我发现很难看出哪些允许触发，哪些不允许触发，以及这些函数中的某些变量包含什么。例如: List.allow({ u
AngularJS:返回 promise 拒绝
我正在 AngularJS 中创建一个 Factory，它是这样的: if (href) { return $http({ method: method, url: item.href });

首页

博学

6Ren·AI

商城

python - 为什么当我将 wholeTextFiles() 与 pyspark 一起使用时 AWS 拒绝我的连接？